https://arxiv.org/abs/2110.08518
MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding (Junlong Li, Yiheng Xu, Lei Cui, Furu Wei)
html 같은 경우 렌더링 결과가 조건에 따라 달라지니 layoutlm을 그대로 쓰기는 어렵고 그에 맞는 구조가 필요하다는 아이디어네요. 흠.
#layout #lm