https://arxiv.org/abs/2304.14953

CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data (Michał Turski, Tomasz Stanisławek, Karol Kaczmarek, Paweł Dyda, Filip Graliński)

Common Crawl에서 PDF 파일들을 쭉 모았군요. 사실 진짜 문제는 이후 PDF에서 레이아웃을 사용해 텍스트를 포매팅하는 것일 것 같지만...여튼 그렇습니다.

#dataset

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230428 CCpdf.md

230428 CCpdf.md

Files

230428 CCpdf.md

Latest commit

History

230428 CCpdf.md

File metadata and controls