https://arxiv.org/abs/2212.09662
MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering (Fangyu Liu, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Yasemin Altun, Nigel Collier, Julian Martin Eisenschlos)
오...pix2struct 쪽에서 굉장히 빠르게 작업을 해나가고 있네요. pix2struct식 스크린샷 파싱 + 차트를 차트를 생성한 코드와 데이터 테이플로 분해하는 과제 (chart derendering) + 수학 문제 풀기로 프리트레이닝했네요. 결과적으로 차트 분석 과제에 대한 성능을 주요하게 끌어올렸습니다.