https://arxiv.org/abs/2103.13413
Vision Transformers for Dense Prediction (René Ranftl, Alexey Bochkovskiy, Vladlen Koltun)
https://arxiv.org/abs/2103.13413 vit에 바로 fpn 붙이기. 16x16 패치에 768 dim이면 픽셀을 모두 집어넣을 수 있으니 16x16 패치 feature에 붙여도 될 것이라는 발상. 채널에 픽셀이 얼마나 들어갈까 세보는 것은 모두가 해보는 것인 듯.
#vision_transformer #fpn