https://arxiv.org/abs/2007.04825
Fast Transformers with Clustered Attention (Apoorv Vyas, Angelos Katharopoulos, François Fleuret)
attention 쿼리들을 k-means로 클러스터링한 다음 같은 클러스터에 있는 쿼리들은 같은 attention weight를 사용하게 해서 연산량을 감소시킴. lsh 다음은 k-means! #attention #transformer