ICML 2017 논문 (https://arxiv.org/abs/1703.01365)
Attribution이란 모델의 input과 output간의 관계를 파악하는 것을 의미하는데, 본 논문에서는 Attribution에 대한 주요성질을 정의하고 그것을 충족시키는 intergrated gradient라는 방법을 제안한다.
두 조건은
1) sensitivity
baseline과 input과 차이나는 feature가 non-zero attribution값을 가지는 경우 sentivity 조건을 만족함
gradient로는 특정지점에서 0이 될수있기때문에 이 조건이 충족되지 않을수도있음.
2) implementation invariance
서로 다른 network구조이지만 같은 input -> output 관계를 가진다면 , 두개는 동일한 attribution을 가지게되는데 이 특성을 부름. gradient는 해당 특성을 만족시킬수있음
comleteness,linearity최종적으로 intergrated gradeint란 gradient가 senmsitivy 속성은 충족하지 못하는 한계를 극복하면서 implementation invariance는 유지하는 방법을 이용하여 제안됨
* baseline(일반적으로 black, white)에서 input 까지의 linear interpolation해서, 여러 gradient값들을 적분하는 방법으로 제안한다. 이렇게 모든 gradient 를 고려함으로써 특정지점에서 gradient가 0이되는 이슈를 해결함 *
baseline 여러개 사용하는 확장 버전smooth grad 등도 있음
https://arxiv.org/abs/1703.01365
여러 baseline관련 실험 들이 더 있음: distill.pub/2020/attribution-baselines