IT 44

Empirical study of the topology and geometry of deep networks, CVPR 2018

'Empirically' 이라는 단어가 많이 나오는 논문이다. 짧게 요약하자면! 저자는 총 3가지 분석을 했다. 1. Classificaion region 영역의 특성 : 한 region이 다 연결되있음.. 2. Decision boundary의 curvature(곡률)특성 : 곡률이 거의 평평한데 주요 몇(?)개 곡률이 그렇지 않음. 이 현상은 original sample과 perturbed sample이 방향이 다름. 3. 위 현상으로 알고리즘 제시 : 위 현상 이용해서 좀 더 robust network를 만드는 알고리즘을 제시하자~ perturbed sample은 decision boundary가 + 쪽으로 싸고 있고, original sample은 decision boundary가 - 쪽으로 싸고..

IT/Paper 2021.03.21

[Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)

(아직 작성중) Google research 논문 CNN에 대한 의존없이 image patch를 word처럼 (Image를 patch (16*16)으로 나누어서 Word처럼 넣었음) 사용하여 classification task가 가능했음을 보여주었음. sota CNN에 버금가는 결과였고 computational 리소스는 훨씬 적었음 1) VISION TRANSFORMER (VIT) ${N = HW/P^2}$ N은 transformer의 sequence length. (즉 몇 개의 patch인지) Patch Embedding : 각 patch를 eq1에 mapping함 Positional Embedding: 각 patch의 위치정보를 유지하기 위해, patch embedding에 더해진다. Transfor..

IT/Paper 2021.03.18

Hash

정의 -> 원소가 저장될 자리가 원소의 값에 의해 결정되는 자료구조 -> 평균적으로 상수시간에 insert, search, delete가 가능하다 -> 매우 빠른 답을 받아야할때 유용 -> 최소 값, 최대 값 찾는 것은 적합하지 않다. 값을 빨리 찾아올때만 유용하다 순서 자료를 가지고 key값 변경 -> index 계산 -> 각 index 위치에 value저장 (Hash Table) 조건 ( 올바른 Hash 함수 조건 ) -> 입력원소가 hash table에 골고루 분포될수있게 key를 만들자 -> 계산을 간단히 하자 정수를 해싱하는 경우 Division method, multiplication method 문자열을 해싱하는 경우 # 곱셈법 (Multiplication Method) - hf(key) =..

IT/Data Structure 2021.03.16

[Transformer] Quantifying Attention Flow in Transformers

Input Token의 상대적인 relevance에 따라 attention weight을 이용할때, attention weight, attention롤아웃 및 흐름을 고려해서 Input Token에 대한 attention 을 근사하는 2가지 방법을 제안하는 논문. 해당 방법은 정보의 흐름에 대한 보완적인 view를 제공하였음. 또한 오리지널 attention과 비교했을 때, ablation method 및 input gradient (두 방법 모두) 를 이용하여 얻은 Input Token의 importance score와 높은 상관관계를 생성했음을 보여주었음 $y=a_x$ 단수/복수 예측하는 verb number 예측 해당 task와 데이터셋은 arxiv.org/pdf/2005.00928.pdf

IT/Paper 2021.03.13

[Optimization] LOOK AHEAD OPTIMIZER: K STEPS FORWARD, 1 STEP BACK, NeurIPS 2019

Lookahead Optimizer 는 기존 optimizer를 사용하여 k 번 gradient descent 수행 후, 첫 번째 theta 방향으로 돌아가는 방법을 반복한다. loop에서 한 단계 다시 back하여 gradient descent를 다시 수행함. 주로 로컬 미니마를 벗어나기 어려울 때 좋은 성능을 보여준다고 함 Optimizer는 Adam 또는 SGD와 같은 것들을 써서 두 세트(이중루프)의 theta를 반복적으로 업데이트함. 가중치는 k step마다 천천히 업데이트 됨. 이때 방향 자체는 바깥 루프 기반으로 이루어짐. 두 loop의 가중치는 soft update. 즉 부 분 비율이 적용되어 동기화됨. alpha값은 하이퍼파라미터임. 이렇게 하면 로컬 미니마 피하고 학습 안정성을 개선, ..

IT/Paper 2021.03.06

[Optimization] SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS, ICLR 2017

회사 과제에 적용해봤었음. SGD 사용 시, 그냥 base보다 성능 좋았음. 하지만 adaptive momentum 류 optimizer에서는 base보다 성능 떨어졌었음. warm start를 주기별로 합쳐서 앙상블 모델을 free로 얻는 효과가 있으나 원래 모델이 앙상블로 쓰였을 경우는 그닥 큰 메리트가 없었다. 꽤 옜날 논문이긴 하지만 아주 간단하게 시도해볼 수 있는 아이디어였다. 주기적으로 LR을 바꿔주면서 로컬 미니마를 피하기 위한 방법. 이때 주기는 cosine annealing 방법으로 적용함. (아래 그래프가 LR 주기를 나타내는 것임) 그리고 덤으로 주기 수 만큼 앙상블 모델을 얻어서 더 높은 정확도에 도달하였다고 함 i번째 학습단계(epoch)에서 LR은 아래와 같이 cosine ann..

IT/Paper 2021.03.06

[RL] Regularizing Trajectory Optimization with Denoising Autoencoders, NeurIPS 2019

2/16 세미나 했던 것. 영어발표용으로 만들었던 ppt가 있어서 오늘은 영어로 포스팅. 한 줄 요약하면 planing할때 exploitation만으로 exploration효과를 줄만한. 가본것중에서 최대한 trajectory 최적화하는게 목적이고, 어떻게 하면 더 잘 플래닝 할것인지에 대한 연구. Objective function의 aciton에 대한 derivative자체를 DAE 식으로 근사함 I am gonna introduce Regularizing Trajectory Optimization with Denoising Autoencoders which is presented in Neurips twenty nineteen. This paper propose trajectory optimizati..

IT/Paper 2021.03.04