IT/Paper

[XAI] Axiomatic Attribution for Deep Networks (intergrated gradient)

성진팍 2022. 1. 5. 17:40

ICML 2017 논문 (https://arxiv.org/abs/1703.01365)

Attribution이란 모델의 input과 output간의 관계를 파악하는 것을 의미하는데, 본 논문에서는 Attribution에 대한 주요성질을 정의하고 그것을 충족시키는 intergrated gradient라는 방법을 제안한다.


두 조건은

1) sensitivity
baseline과 input과 차이나는 feature가 non-zero attribution값을 가지는 경우 sentivity 조건을 만족함
gradient로는 특정지점에서 0이 될수있기때문에 이 조건이 충족되지 않을수도있음.

2) implementation invariance
서로 다른 network구조이지만 같은 input -> output 관계를 가진다면 , 두개는 동일한 attribution을 가지게되는데 이 특성을 부름. gradient는 해당 특성을 만족시킬수있음
comleteness,linearity최종적으로 intergrated gradeint란 gradient가 senmsitivy 속성은 충족하지 못하는 한계를 극복하면서 implementation invariance는 유지하는 방법을 이용하여 제안됨

 


* baseline(일반적으로 black, white)에서 input 까지의 linear interpolation해서, 여러 gradient값들을 적분하는 방법으로 제안한다. 이렇게 모든 gradient 를 고려함으로써 특정지점에서 gradient가 0이되는 이슈를 해결함 *

 

 

baseline 여러개 사용하는 확장 버전smooth grad 등도 있음

 

https://arxiv.org/abs/1703.01365

여러 baseline관련 실험 들이 더 있음:  distill.pub/2020/attribution-baselines