Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 439 Bytes

210324 Vision Transformers for Dense Prediction.md

File metadata and controls

7 lines (4 loc) · 439 Bytes

https://arxiv.org/abs/2103.13413

Vision Transformers for Dense Prediction (René Ranftl, Alexey Bochkovskiy, Vladlen Koltun)

https://arxiv.org/abs/2103.13413 vit에 바로 fpn 붙이기. 16x16 패치에 768 dim이면 픽셀을 모두 집어넣을 수 있으니 16x16 패치 feature에 붙여도 될 것이라는 발상. 채널에 픽셀이 얼마나 들어갈까 세보는 것은 모두가 해보는 것인 듯.

#vision_transformer #fpn