https://github.com/bojone/rerope
요즘 positional embedding interpolation 관련해서 어느 정도 진전이 있었는지 모르겠네요. 이쪽은 interpolation 대신 window를 사용해서 일정 window 이상의 position index를 clipping 하는 방법인데...의외로 이렇게 하는 게 성능이 잘 나오는 군요. 이런 트릭 자체는 이전에도 있긴 했지만요.
https://github.com/bojone/rerope
요즘 positional embedding interpolation 관련해서 어느 정도 진전이 있었는지 모르겠네요. 이쪽은 interpolation 대신 window를 사용해서 일정 window 이상의 position index를 clipping 하는 방법인데...의외로 이렇게 하는 게 성능이 잘 나오는 군요. 이런 트릭 자체는 이전에도 있긴 했지만요.