NeurIPS 2019에 spotlight으로 발표된 논문이다.
Adversarial example은 non robust feature로 부터 발생되는 것임을 보이며, 즉 모델의 버그가 아니고 data의 내재적인 특성으로 인해 발생되는 현상이다 라고 주장하는 논문임
DNN이 adversarial example에 취약하다는 것은 잘 알려져있다. 이전 연구들은 이런 원인이 input space의 high-dims에서 오거나 train data의 통계적인 fluctuation으로부터 발생한다거나, 또는 우리가 사용하는 relu의 positive부분에서 local linearity가 발생해서 공격이 쉽게 당한다. 등 다양한 주장이 있었다. 또한 이러한 attack 을 방어하는 여러 전략들을 다뤄져왔다. 이 논문에서는 인간이 인지 못하는 feautre라도 accuracy에 도움된다면 모델은 활용할것이기에, 이러한 imperceptible한 feature에 대해 민감하게 반응되는 결과에서 adversarial vulnerability가 오는것이다. 라고 말한다.
(imperceptible feature는 눈에 보이지 않는 털의 방향이나 texture같은것을 의미함)
대부분 논문들은 adversarial example을 일종의 bug처럼 생각을 하고, 그런 bug를 어떻게 해결할수있을지 관점으로 바라보았다고 하면 본 논문은 bug가 아닌 일종의 featur로서 바라본다는 새로운 시각을 제시하는 점이 기존 연구와 다른점이라 할 수 있겟음. 즉 Adversarial perturbation = non-robust feauture라는 시각을 제시
논문의 마지막 section에서는 작은 setting에서 이론적 framework를 제안함.총 3가지를 말하는데,
- Adversarial vulnerability는 attack을 사용하면서 이용하는 l2와 실제 데이터 내제 metric과의 차이때문에 발생한다.
- 따라서 robust learning이 이런 측면에서 문제를 해결하기에 도움이 된다.
- Robust model의 gradient는 adversary metric과 방향성이 일치한다.
Theorem1: 위 그림을 보더라도 첫번째 그림은 데이터 자체에서의 cov matrix 분포와 l2 metric 분포가 많이 차이남을 볼 수 있음.
Theorem2: Robust learning을 해도, mean은 그대로인데 covariance matrix가 점차 오른쪽과 같이 변화된다. (Epsilon이 커짐에 따라 cov_matrix가 점점 identity matrix와 방향성이 align되는 형태로 바뀜을 볼 수 있음)
즉 이말은 특정방향으로 민감해지는 정도가 줄어든다는 것 = (Adversarial example이 만들어질수있는 가능성이 줄어듬)
Theorem3: Robust model에서의 gradient 와 데이터 inner product값 큼을 보임. Robust model의 Desicion boundary의 graddeint도 data distribution vector와 점차 align되어감을 볼 수 있음. 같은방향성을 가지기때문에 ad example생겨나기가 더 어렵다는 것.
기존 우리 데이터 내재된 분포와 adversarial training 하는 l2 metric의 분포 차이떄문에 생기는것이다.