https://arxiv.org/abs/2103.13413

Vision Transformers for Dense Prediction (René Ranftl, Alexey Bochkovskiy, Vladlen Koltun)

https://arxiv.org/abs/2103.13413 vit에 바로 fpn 붙이기. 16x16 패치에 768 dim이면 픽셀을 모두 집어넣을 수 있으니 16x16 패치 feature에 붙여도 될 것이라는 발상. 채널에 픽셀이 얼마나 들어갈까 세보는 것은 모두가 해보는 것인 듯.

#vision_transformer #fpn

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210324 Vision Transformers for Dense Prediction.md

210324 Vision Transformers for Dense Prediction.md

Files

210324 Vision Transformers for Dense Prediction.md

Latest commit

History

210324 Vision Transformers for Dense Prediction.md

File metadata and controls