Skip to content

Latest commit

 

History

History
9 lines (4 loc) · 601 Bytes

210412 Thoughts on recent papers.md

File metadata and controls

9 lines (4 loc) · 601 Bytes

210412 최근 논문들에 대한 생각

https://arxiv.org/abs/2104.04473 A100 클러스터에 대한 scaling이 슬슬 나오기 시작. 1 trillion 파라미터 모델에 대해 3072 GPU로 502 petaFLOP/s를 달성.

앞으로는 거대 규모로 모델과 학습을 scaling하는 분산 처리에 대한 이해와 데이터를 큐레이션하는 좀 더 전통적인 느낌의 데이터 사이언스 스킬들이 점점 더 중요해질 것이라고 생각. 그런 의미에서는 megatron-lm 같은 코드 베이스들을 좀 뜯어보고 공부를 해볼 가치가 있을 듯 싶다.

#review