분류 전체보기 50

Open Category Detection with PAC Guarantees

Open category Detection이란 train 에는 없었던, 이국적인(alien) test instance를 감지하는 문제이다. 많은 application에서, 확실히 alien을 감지하는것은 중요한데, test set 예측의 안전성/정확도를 보장하기 위해서 그렇다. 그러나 이론적으로 alien 감지하는 알고리즘은 없다. 더군다나 open category detection 관련 알고리즘의 있더라도 그것들은 alien detection rate를 보고하는 경험적인 결과일뿐이다. 따라서 이론과 경험의 상당한 gap이 open category detection에 존재한다. 이 논문의 셋팅에서는, clean train 이랑 contaminated(오염된) train 을 alpha비율 섞어서 셋팅했다...

IT/Paper 2021.04.01

Empirical study of the topology and geometry of deep networks, CVPR 2018

'Empirically' 이라는 단어가 많이 나오는 논문이다. 짧게 요약하자면! 저자는 총 3가지 분석을 했다. 1. Classificaion region 영역의 특성 : 한 region이 다 연결되있음.. 2. Decision boundary의 curvature(곡률)특성 : 곡률이 거의 평평한데 주요 몇(?)개 곡률이 그렇지 않음. 이 현상은 original sample과 perturbed sample이 방향이 다름. 3. 위 현상으로 알고리즘 제시 : 위 현상 이용해서 좀 더 robust network를 만드는 알고리즘을 제시하자~ perturbed sample은 decision boundary가 + 쪽으로 싸고 있고, original sample은 decision boundary가 - 쪽으로 싸고..

IT/Paper 2021.03.21

[Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT)

(아직 작성중) Google research 논문 CNN에 대한 의존없이 image patch를 word처럼 (Image를 patch (16*16)으로 나누어서 Word처럼 넣었음) 사용하여 classification task가 가능했음을 보여주었음. sota CNN에 버금가는 결과였고 computational 리소스는 훨씬 적었음 1) VISION TRANSFORMER (VIT) ${N = HW/P^2}$ N은 transformer의 sequence length. (즉 몇 개의 patch인지) Patch Embedding : 각 patch를 eq1에 mapping함 Positional Embedding: 각 patch의 위치정보를 유지하기 위해, patch embedding에 더해진다. Transfor..

IT/Paper 2021.03.18

[Transformer] Transformer Interpretability Beyond Attention Visualization, CVPR 2021

(작성중....) Transformer Interpretability Beyond Attention Visualization colab: colab.research.google.com/github/hila-chefer/Transformer-Explainability/blob/main/BERT_explainability.ipynb github.com/hila-chefer/Transformer-Explainability Vision transformer에서 relevance score를 계산하는 방법을 제시하는 논문 Method consists of 3 phases: Calculating relevance for each attention matrix using our novel formulation of ..

카테고리 없음 2021.03.16

Hash

정의 -> 원소가 저장될 자리가 원소의 값에 의해 결정되는 자료구조 -> 평균적으로 상수시간에 insert, search, delete가 가능하다 -> 매우 빠른 답을 받아야할때 유용 -> 최소 값, 최대 값 찾는 것은 적합하지 않다. 값을 빨리 찾아올때만 유용하다 순서 자료를 가지고 key값 변경 -> index 계산 -> 각 index 위치에 value저장 (Hash Table) 조건 ( 올바른 Hash 함수 조건 ) -> 입력원소가 hash table에 골고루 분포될수있게 key를 만들자 -> 계산을 간단히 하자 정수를 해싱하는 경우 Division method, multiplication method 문자열을 해싱하는 경우 # 곱셈법 (Multiplication Method) - hf(key) =..

IT/Data Structure 2021.03.16

[Transformer] Quantifying Attention Flow in Transformers

Input Token의 상대적인 relevance에 따라 attention weight을 이용할때, attention weight, attention롤아웃 및 흐름을 고려해서 Input Token에 대한 attention 을 근사하는 2가지 방법을 제안하는 논문. 해당 방법은 정보의 흐름에 대한 보완적인 view를 제공하였음. 또한 오리지널 attention과 비교했을 때, ablation method 및 input gradient (두 방법 모두) 를 이용하여 얻은 Input Token의 importance score와 높은 상관관계를 생성했음을 보여주었음 $y=a_x$ 단수/복수 예측하는 verb number 예측 해당 task와 데이터셋은 arxiv.org/pdf/2005.00928.pdf

IT/Paper 2021.03.13

[Optimization] LOOK AHEAD OPTIMIZER: K STEPS FORWARD, 1 STEP BACK, NeurIPS 2019

Lookahead Optimizer 는 기존 optimizer를 사용하여 k 번 gradient descent 수행 후, 첫 번째 theta 방향으로 돌아가는 방법을 반복한다. loop에서 한 단계 다시 back하여 gradient descent를 다시 수행함. 주로 로컬 미니마를 벗어나기 어려울 때 좋은 성능을 보여준다고 함 Optimizer는 Adam 또는 SGD와 같은 것들을 써서 두 세트(이중루프)의 theta를 반복적으로 업데이트함. 가중치는 k step마다 천천히 업데이트 됨. 이때 방향 자체는 바깥 루프 기반으로 이루어짐. 두 loop의 가중치는 soft update. 즉 부 분 비율이 적용되어 동기화됨. alpha값은 하이퍼파라미터임. 이렇게 하면 로컬 미니마 피하고 학습 안정성을 개선, ..

IT/Paper 2021.03.06