Open category Detection이란 train 에는 없었던, 이국적인(alien) test instance를 감지하는 문제이다.
많은 application에서, 확실히 alien을 감지하는것은 중요한데, test set 예측의 안전성/정확도를 보장하기 위해서 그렇다. 그러나 이론적으로 alien 감지하는 알고리즘은 없다. 더군다나 open category detection 관련 알고리즘의 있더라도 그것들은 alien detection rate를 보고하는 경험적인 결과일뿐이다. 따라서 이론과 경험의 상당한 gap이 open category detection에 존재한다.
이 논문의 셋팅에서는, clean train 이랑 contaminated(오염된) train 을 alpha비율 섞어서 셋팅했다. 그리고 PAC 스타일의 알고리즘을 제시하는데, alien detection rate를 보장하면서 flase alaram을 최소화 하는걸 목표로 한다.
synthetic 및 표준 benchmark dataset의 경험적인 결과로 이 알고리즘이 효과적이다 라는걸 제시한다.
<Introduction>
대부분의 모델들은 그들의 training expereince가 test expereince를 대변한다고 하지만, 이것은 현실세계에서 거의 아니다. Test sample이 전형적으로 trainding data에서 표현하지 못한 표본을 가지고 있을수도 있는데, 이런 classifier는 잘못 예측을 할수도있다. Open cateogry deteiction 문제는 test time에서 alien example을 감지하는 것이다.
이 논문에서는 다음 question으로 시작한다.
Is it possible to achieve open category detection with guarantees?
이 물음에 대해 간소화하여 연구할껀데, problem setting을 적절하게 현실적으로 만들것이다.
이들의 setting은 두 trainisng set을 가정한다.
유한한 카테고리 집합을 포함한 training dataset, alinen을 alpha 비율만큼 지니고 있는 오염된 dataset
첫번째 contribution은 alpha에 대한 upper bound의 주어진 knowledge가 있으면 이론적인 보장이 가능하다는 것이다. 특히 Probably Approximately Correct (PAC) 알고리즘은 user가 명시한 alien detection rate를 달성하는 것을 보장한다.
반면 alpha를 제대로 모르는 상황도 있겠으나, 많은 상황에서 도메인 지식을 기반으로 하거나 test data 를 검수하거나, prior data를 보거나 해서 선택하는게 가능할것이다.
해당 논문의 핵심 아이디어는 clean data로 학습된 modern anomaly detector를 활용하는것이다.
clean/오염 데이터에 대한 anomaly-score distributions 을 결합하는데, 새로운 test query에 대한 alien detection rate를 보장하기 위해서이다.