https://arxiv.org/abs/2304.14953
CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data (Michał Turski, Tomasz Stanisławek, Karol Kaczmarek, Paweł Dyda, Filip Graliński)
Common Crawl에서 PDF 파일들을 쭉 모았군요. 사실 진짜 문제는 이후 PDF에서 레이아웃을 사용해 텍스트를 포매팅하는 것일 것 같지만...여튼 그렇습니다.
#dataset