IT/Paper

[Transformer] Quantifying Attention Flow in Transformers

성진팍 2021. 3. 13. 13:32

<Abstract>

Input Token의 상대적인 relevance에 따라 attention weight을 이용할때, attention weight, attention롤아웃 및 흐름을 고려해서 Input Token에 대한 attention 을 근사하는 2가지 방법을 제안하는 논문.

해당 방법은 정보의 흐름에 대한 보완적인 view를 제공하였음. 또한 오리지널 attention과 비교했을 때,  ablation method 및 input gradient (두 방법 모두) 를 이용하여 얻은 Input Token의 importance score와 높은 상관관계를 생성했음을 보여주었음

$y=a_x$

a) raw attention 을 시각화 

 

 

<Problem setup>

단수/복수 예측하는 verb number 예측

해당 task와 데이터셋은 

 

<Attention rollout>

 

<Attention flow>

 

 

 

 

 

 

 

 

 

 

arxiv.org/pdf/2005.00928.pdf