https://arxiv.org/abs/2107.06955
HTLM: Hyper-Text Pre-Training and Prompting of Language Models (Armen Aghajanyan, Dmytro Okhonko, Mike Lewis, Mandar Joshi, Hu Xu, Gargi Ghosh, Luke Zettlemoyer)
어...이건 신박한 아이디어네요. html 문서로 lm 학습하기. 모으기 쉽고 마크업이니 문서에 대한 구조 정보도 학습시킬 수 있고. 또 구조가 있으니 이 구조를 활용해 예를 들어 title 태그를 채우라는 과제를 주고 문서 요약 같은 걸 할 수도 있고. 좋은데요?
#lm