회사 과제에 적용해봤었음. SGD 사용 시, 그냥 base보다 성능 좋았음. 하지만 adaptive momentum 류 optimizer에서는 base보다 성능 떨어졌었음. warm start를 주기별로 합쳐서 앙상블 모델을 free로 얻는 효과가 있으나 원래 모델이 앙상블로 쓰였을 경우는 그닥 큰 메리트가 없었다. 꽤 옜날 논문이긴 하지만 아주 간단하게 시도해볼 수 있는 아이디어였다. 주기적으로 LR을 바꿔주면서 로컬 미니마를 피하기 위한 방법. 이때 주기는 cosine annealing 방법으로 적용함. (아래 그래프가 LR 주기를 나타내는 것임) 그리고 덤으로 주기 수 만큼 앙상블 모델을 얻어서 더 높은 정확도에 도달하였다고 함 i번째 학습단계(epoch)에서 LR은 아래와 같이 cosine ann..