IT/Paper 23

Empirical study of the topology and geometry of deep networks, CVPR 2018

'Empirically' 이라는 단어가 많이 나오는 논문이다. 짧게 요약하자면! 저자는 총 3가지 분석을 했다. 1. Classificaion region 영역의 특성 : 한 region이 다 연결되있음.. 2. Decision boundary의 curvature(곡률)특성 : 곡률이 거의 평평한데 주요 몇(?)개 곡률이 그렇지 않음. 이 현상은 original sample과 perturbed sample이 방향이 다름. 3. 위 현상으로 알고리즘 제시 : 위 현상 이용해서 좀 더 robust network를 만드는 알고리즘을 제시하자~ perturbed sample은 decision boundary가 + 쪽으로 싸고 있고, original sample은 decision boundary가 - 쪽으로 싸고..

IT/Paper 2021.03.21

[Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)

(아직 작성중) Google research 논문 CNN에 대한 의존없이 image patch를 word처럼 (Image를 patch (16*16)으로 나누어서 Word처럼 넣었음) 사용하여 classification task가 가능했음을 보여주었음. sota CNN에 버금가는 결과였고 computational 리소스는 훨씬 적었음 1) VISION TRANSFORMER (VIT) ${N = HW/P^2}$ N은 transformer의 sequence length. (즉 몇 개의 patch인지) Patch Embedding : 각 patch를 eq1에 mapping함 Positional Embedding: 각 patch의 위치정보를 유지하기 위해, patch embedding에 더해진다. Transfor..

IT/Paper 2021.03.18

[Transformer] Quantifying Attention Flow in Transformers

Input Token의 상대적인 relevance에 따라 attention weight을 이용할때, attention weight, attention롤아웃 및 흐름을 고려해서 Input Token에 대한 attention 을 근사하는 2가지 방법을 제안하는 논문. 해당 방법은 정보의 흐름에 대한 보완적인 view를 제공하였음. 또한 오리지널 attention과 비교했을 때, ablation method 및 input gradient (두 방법 모두) 를 이용하여 얻은 Input Token의 importance score와 높은 상관관계를 생성했음을 보여주었음 $y=a_x$ 단수/복수 예측하는 verb number 예측 해당 task와 데이터셋은 arxiv.org/pdf/2005.00928.pdf

IT/Paper 2021.03.13

[Optimization] LOOK AHEAD OPTIMIZER: K STEPS FORWARD, 1 STEP BACK, NeurIPS 2019

Lookahead Optimizer 는 기존 optimizer를 사용하여 k 번 gradient descent 수행 후, 첫 번째 theta 방향으로 돌아가는 방법을 반복한다. loop에서 한 단계 다시 back하여 gradient descent를 다시 수행함. 주로 로컬 미니마를 벗어나기 어려울 때 좋은 성능을 보여준다고 함 Optimizer는 Adam 또는 SGD와 같은 것들을 써서 두 세트(이중루프)의 theta를 반복적으로 업데이트함. 가중치는 k step마다 천천히 업데이트 됨. 이때 방향 자체는 바깥 루프 기반으로 이루어짐. 두 loop의 가중치는 soft update. 즉 부 분 비율이 적용되어 동기화됨. alpha값은 하이퍼파라미터임. 이렇게 하면 로컬 미니마 피하고 학습 안정성을 개선, ..

IT/Paper 2021.03.06

[Optimization] SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS, ICLR 2017

회사 과제에 적용해봤었음. SGD 사용 시, 그냥 base보다 성능 좋았음. 하지만 adaptive momentum 류 optimizer에서는 base보다 성능 떨어졌었음. warm start를 주기별로 합쳐서 앙상블 모델을 free로 얻는 효과가 있으나 원래 모델이 앙상블로 쓰였을 경우는 그닥 큰 메리트가 없었다. 꽤 옜날 논문이긴 하지만 아주 간단하게 시도해볼 수 있는 아이디어였다. 주기적으로 LR을 바꿔주면서 로컬 미니마를 피하기 위한 방법. 이때 주기는 cosine annealing 방법으로 적용함. (아래 그래프가 LR 주기를 나타내는 것임) 그리고 덤으로 주기 수 만큼 앙상블 모델을 얻어서 더 높은 정확도에 도달하였다고 함 i번째 학습단계(epoch)에서 LR은 아래와 같이 cosine ann..

IT/Paper 2021.03.06

[RL] Regularizing Trajectory Optimization with Denoising Autoencoders, NeurIPS 2019

2/16 세미나 했던 것. 영어발표용으로 만들었던 ppt가 있어서 오늘은 영어로 포스팅. 한 줄 요약하면 planing할때 exploitation만으로 exploration효과를 줄만한. 가본것중에서 최대한 trajectory 최적화하는게 목적이고, 어떻게 하면 더 잘 플래닝 할것인지에 대한 연구. Objective function의 aciton에 대한 derivative자체를 DAE 식으로 근사함 I am gonna introduce Regularizing Trajectory Optimization with Denoising Autoencoders which is presented in Neurips twenty nineteen. This paper propose trajectory optimizati..

IT/Paper 2021.03.04

[XAI] Fooling Neural Network Interpretations via Adversarial Model Manipulation, NeurIPS 2019

따라서 본 paper의 궁극적인 목표는 해석방법의 Robustness 와 Stability 개선에 대해 활발한 연구를 더 부르기 위한 것이다. 본 paper의 contribution은 다음과 같다. 1. Adversarial model manipulation 을 제시하면서 뉴럴넷 해석의 안정성에 대한 개념을 고려함 2. 기존 LRP, Grad-CAM, SimpleGradient 등은 본 paper Adversarial model manipulation에 취약했음을 보였고, 정확도는 각각 2%, 1% 떨어졌다. (Top-1, Top-5 Image net validation set) Figure 1-b 참고 3. Fooled explanation는 전체 validation set을 일반화하는 것을 보였고 특..

IT/Paper 2021.03.04

[XAI] RAP, Relative Attributing Propagation: Interpreting the Comparative Contributions of Individual Units in Deep Neural Networks, AAAI 2020

히히 latex 수식넣는 법 발견해서 글이 윤택해졌다 짱편하구먼ㅎ_ㅎ DNN output에 대한 결정에 대해 input image 각 location의 positive/negative 기여도를 고려하기 위해 Bach et al. 2015 소개한 것이 LRP. 예측에 대해 relevance score를 propagate 시켜나감으로써 input 중요도를 보여준다. LRP에서 언급되는 relevance propagation을 짧게 요약하자면, 아래 왼쪽 그림의 분류 결과값 $a_{7}$ 로부터 분해될 수 있음을 보여준다. 최종적으로 ${R_d}^{(1)}$에 대해 input layer에 대한 각 node들의 relevance값을 구하는 것이 목표이다. 그러나 기존 연구는 positive/negative re..

IT/Paper 2021.03.02