모델의 weight, input, output 으로 linear / non-linear 에서도 저자의 방법론으로 각각 signal을 구할 수 있음.
이 signal로 시각화를 하는게 더 좋다
아직도 의문인건 왜 conv에서는 linear estimator가 더 높았던건가 답을 알고 싶음
<Contribution> (작성중)
- 기존 XAI approach들를 linear model 셋팅에서 분석 (section 2, 3)
- XAI 방법론을 3가지 그룹으로 항목화 : functions, signals, attribution (section3)
- PatternNet, PatternAttribution 제안: 현재 방법론이 부족한점들을 보완 (section 4, 5)
Section 2. Understanding Linear Models
-> input data가 어떻게 구성되고, explanation과 signal component가 어떻게 연결될 수 있는지 설명하는 부분
Data는 아래와 같이 구성됨
- Signal: 중요 의미를 담는 부분 / 시각화를 할때는 Signal부분에 포커싱 되는것이 중요
- Distractor: Noise. 쓸모없는 부분 / 모델의 weight는 Distractor에 영향을 많이 받을 수 있으므로 시각화 할때 weight에만 의존할 경우, 좋지 않은 결과 발생 가능성 (배경도 같이 포커싱 되거나 등)
output y, distractor와의 correlation으로 signal의 quality 판단,평가 가능
충분히 학습된 모델의 weight, input, output으로 linear / non-linear 두 방식의 signal을 구할 수 있음. 이 시그널로 시각화.
weight vector로 시각화하면 distractor로 좌지우지 될 수 있음.
2-1) 단순한 linear model (Deterministic distractor)
위 toy example에서 보면 weight 는 distractor를 제거하는 방향(즉 wieght vector는 필터)으로 (orthogonal함을 유지) 계속 변화하는 것을 볼 수 있음. 즉 weight vector 방향은 signal의 방향과는 align되지 않고 distractor에 좌지우지 됨. 즉 weight vector로만 분석하는 것으로 우리는 어떤 input이 y에 영향을 주었는지 알 수 없다는 의미.
2-2) 다음은 방향성 없는 Gaussian noise를 가정. (zero-mean, 축 방향으로 corr 없는 noise)
zero mean: bias를 통해 얼마든지 상쇄될수있으니 단순히 0, correlation이나 structure가 없는 noise이기에 weight vector를 잘 학습하더라도 noise가 제거되지 않음,
L2 regularization 효과를 줌 (weight shirink 효과)
y = wx + e : zero mean 따르도록 해서 likelihodd 계산하고 log 취하면 L2 형태로 변함
위 조건때문에 Wa=1 을 만족하는 weight vector는 signal 방향과 최대한 같은 방향 (a_s)으로, 유도됨
Section3 . OVERVIEW OF EXPLANATION APPROACHES AND THEIR BEHAVIOR
- Functions : gradient, saliency map
x로부터 y를 추출하기 위한 operation, DNN은 nonlinear이므로 이것은 approximated 된 것
$y=W^T x$ 에서 saliencty map은 x에 대해 미분해서 w를 분석. 이것은 distractor에 의해 대부분 결정된 것이므로 signal을 대표할 수 없음. 이것은 signal이 무엇인지가 아닌, 어떻게 extract하는지를 의미하는 것이므로
- Signal : DeConvNet, Guided BackProp, PatternNet
어떤 뉴런을 activate시키는지 찾아내는 방식
output -> input sapce까지 gradinet backprpo시키지만, 전파된것이 signal이라 보장하기 힘듬. filter의 weight에 집중.
이 특성 발전시킨 것이 PatternNet
- Attribution : LRP, Deep Taylor Decomposition, PatternAttribution (relevance score)
signal이 얼마나 output을 기여하는지 나타내는 지표.
linear moel에서, signal * W 의 element-wise로 나타내지는 것
-> PatternAttribution으로 정의
기존 Signal estimator방식
S_x (x) = x
identity estimator
ill-posed problem.
기존방법론 : sailency map, LRP 등 이론적으로 문제가 있음. DeConvNet: Backward에서 gradient 음수인것들 0으로 전파
Guided BackProp: Gradient 음수뿐 아니라, feature map에서 음수엿던 것도 0으로 전파
weight (conv filter)의 연산결과에 대한 것만 관심이 있음, 해당 방법론들은 Data의 중요한 부분을 잡아내지 못할 수 있음
Graident-method (DeConvNet, Guided BackProp, LRP) 는 distractor로부터 signal을 구분할 수 없음
https://openreview.net/pdf?id=Hkn7CBaTW