IT/Paper

[XAI] Fooling Neural Network Interpretations via Adversarial Model Manipulation, NeurIPS 2019

성진팍 2021. 3. 4. 15:04

<Introduction>

 

<Contribution>

 

따라서 본 paper의 궁극적인 목표는 해석방법의 Robustness 와 Stability 개선에 대해 활발한 연구를 더 부르기 위한 것이다.  본 paper의 contribution은 다음과 같다.

1. Adversarial model manipulation 을 제시하면서 뉴럴넷 해석의 안정성에 대한 개념을 고려함
2. 기존 LRP, Grad-CAM, SimpleGradient 등은 본 paper Adversarial model manipulation에 취약했음을 보였고, 정확도는 각각 2%, 1% 떨어졌다. (Top-1, Top-5 Image net validation set)  Figure 1-b 참고

3. Fooled explanation는 전체 validation set을 일반화하는 것을 보였고 특정 input에만 국한되지 않는 것을 보였다.  

([11], [13] 과 대조적으로)

[11] Amirata Ghorbani, Abubakar Abid, and James Zou. Interpretation of neural networks is fragile.
In AAAI, 2019.
[13] Xinyang Zhang, Ningfei Wang, Shouling Ji, Hua Shen, and Ting Wang. Interpretable deep
learning under fire. arXiv:1812.00891, 2018.

4. 본 논문의 fooling에는 transferability가 존재함을 증명했다. 예를 들면 이들이 LRP를 속이기 위해 모델을 조종하면, Grad-CAM과 Simple gradient 또한 왜곡 해석되는 것을 증명했다.

 

<Related Work>

1. Interpretation methods

다양한 해석 방법론이 제시되어왔는데 크게 두개로 그룹화할 수 있음

  • Black box model Base
  • Gradient/saliency map Base

-> 전형적으로 model 구조와 파라미터에 대한 full access를 함. 계산 집약적이지 않고 특히 복잡한 뉴럴넷에 대해 사용하기에 더 간단하다.  본 paper에서는 Gradient/saliency map 기반의 해석방법론에 초점을 두고, 3가지 sota method가 adversarial model manipulation에 의해 왜곡될 수있는지 체크할 것이다.

 

2. Sanity checking neural network and its interpreter

Model 예측의 안정성에 대해 주로 검사

예측의 해석에 대해

[24] Anish Athalye, Nicholas Carlini, and David Wagner. Obfuscated gradients give a false sense of
security: Circumventing defenses to adversarial examples. In ICML, 2018.
[25] Alexey Kurakin, Ian Goodfellow, and Samy Bengio. Adversarial examples in the physical
world. arXiv:1607.02533, 2016.
[26] Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu.
Towards deep learning models resistant to adversarial attacks. arXiv:1706.06083, 2017.

3. Relation to our work

유사연구들과 공통점: 뉴럴넷 해석에 대한 snanity checking 관점에서는 비슷하지만, 몇 가지 유니크한 관점이 있음

1) 주어진 input에 대해 attack을 하는 다른 연구들과 달리, pre trained 모델을 fine tuning함으로써 model parameter를 바꾸고 input data를 purtrubate하지 않는다. 이러한 차이점때문의 우리의 adversarial model 조종은 전체 validation data를 일반화하는 해석의 왜곡을 만든다 .

2) 타겟이 있는/없는 adversarial attack과 유사하게, 우리는 몇가지 fooling을 구현했다.  passive/Active 관점으로 

정보가 없는 해석뿐 아니라, 이미지 내에서 object와 관련없는 포인트로

3)  다른 연구는 특정 뉴럴넷 구조를 제한하지만 우리는 주어진  pre trained model의 파라미터를 업데이트 하는 back prop 의 일반적인 과정을 사용한다.

4)  다른 연구(Sanity chekcs for saliency maps, NeurIPS, 2018)와 마찬가지로 본 연구도 해석의 안정성에 대해 측정하지만, 다른 연구는 설명의 가변성 variability에 초점을 맞추는 반면, 본 연구는 Adversarial purturbation은 모델의 성능을 유지시켜준다.  다른 연구는 saliency map 기반 방법들이 model/data randomization관점에 너무 stable함을 보이며 그들의 해석은 model/data와 독립적임을 보였다.

<Method>  Adversarial Model Manipulation

3.1. Preliminaries and notations

  • Layer-wise Relevance Propagation (LRP)

relevance propagation 이용. back prop과 유사하게 동작하며 각 input 픽셀별 중요도 relevance value를 heatmap으로 보여준다. 해당 value는 positive/negative 모두 될수있는데 class c를 예측하는데에 있어 얼마나 input이 유용했는지를 나타낸다. 연결되는 work로 LRP-Composite, 입실론, LRP-αβ 도 있었다. 본 연구에서는 LRP-composite를 적용했다.

  • Grad-CAM

각 input에 대한 중요도를 나타내기 위해 activation과 gradient 정보를 결합한 것으로 포괄적인 해석방법이다. 주로 비전에서 CNN based 에서 사용된다. 전형적으로 importance value는 마지막 convolution layer에서 계산되므로, 시각화한 resoluition은 LRP보다 더 coarse하다.

  • SimpleGrad (SimpleG)

input관점의 prediction score의 gradient를 heatmap으로 시각화 한다. input pixel의 변화에 따라 prediction이 얼마나 sensitivie해지는지 표시한다.

 

<Notations>

supervised training data
Input data
Target classification label
Interpretation method
뉴럴넷 파라미터 w에서 class c, input x의 interpretation method에 의한 HeatMap.

HeatMap의 j번째 value는 이렇게 표현됨. 즉 class c로 예측한 것에 대한 input X (그 중 j픽셀)의 importance score 를 의미함
평범한 classification loss
training data를 속이기 위한 penalty term

 

3.2. Objective function and penalty terms

본 paper에서 제안하는 adversarial model manipulation은 pretrained model을 fine tuning함으로써 실현되는데,

objective function은 일반적인 classification loss + penalty term( interpretation 포함)  결합한 형태.  

Objective function 설명
D, w에 대한 일반적인 classification loss term
<penalty term>
w0은 오리지널 pretrained model에 대한 parameter.

D보다 적은 set으로 이루어진 D fool 로 penalty term을 구성함.  penalty term에만 쓰이는 data set 인듯.  λ 는 trade off 파라미터로, 얼마나 penalty term에 비중을 둘지 결정.  

 

이 때 penalty term을 어떻게 정의할것이냐를 2가지로 나눌수있다.

3.2.1 Passive fooling

interpretation method가 Uninformative(덜중요한) 설명만을 생성하도록 하게 해서 속이는 방법.  3가지 스킴이 존재함

1) Location fooling

input의 특정한 영역만 항상 explanation이 집중되도록 의도함. 예를 들면 이미지 코너나 경계쪽만 (인풋에 상관없이 중요한부분이니까)

D fool은 D에 L2 norm적용한 것이고,  m은 미리 정의된 mask vector (인풋의 임의영역에 고려된)이다.

즉 m j(픽셀) 를 1로 설정하면, 해석방법이 예측에 대한 높은 importance score를 갖게 하는것이며,  m j = 0 이면 높지 않은 importance score를 갖게 하는 것이다.

2) Top-k fooling

interpretation score가 높은 top k% 에 드는 픽셀을 줄이는 것을 목표로 하는 방법

여기서는 D fool이 D와 같다. P i, k (w0)은 pretrained model(w0)에 대해 높은 히트맵 값을 갖는 top k% 픽셀들의 set을 의미한다. 

3) Center-mass fooling

center mass loss 라는개념이 원래 있는데, 히트맵의 center 값을 되도록 벗어나도록 하게 한다.

 

위 식을 좀더 자세히 보면

1d 히트맵의 중간값으로, 이렇게 정의된다. index j는 location vector로 볼수있음
   
   

 

 

3.2.2 Active fooling

interpretation method가 아예 잘못된 설명만을 의도적으로 생성하도록 만드는 방법

 

 

 

 

<출처논문>

arxiv.org/abs/1902.02041

<Reference>