Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 414 Bytes

230428 CCpdf.md

File metadata and controls

7 lines (4 loc) · 414 Bytes

https://arxiv.org/abs/2304.14953

CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data (Michał Turski, Tomasz Stanisławek, Karol Kaczmarek, Paweł Dyda, Filip Graliński)

Common Crawl에서 PDF 파일들을 쭉 모았군요. 사실 진짜 문제는 이후 PDF에서 레이아웃을 사용해 텍스트를 포매팅하는 것일 것 같지만...여튼 그렇습니다.

#dataset