IT/Paper

[Model] Sequence to Sequence Learning with Neural Networks

성진팍 2020. 9. 5. 17:10

LSTM구조를 갖는 Encoder+Decoder 방식을 이용한 번역모델을 sequence to sequence 구조로 소개한 논문이다!

Encoder : EOS token이 나올 때까지 input을 계속 넣어주고 누적된 cell state(latent vector)를 갖는 context로 변환시킨다. 해당 context에는 입력 문장의 모든 단어들의 정보가 요약 되어있을 것을 기대한다.

Decoder: Encoder에서 마지막으로 나온 Cell state를 hidden state로 받아서, sequence를 생성한다. Decoder의 경우 이전 셀의 output이 다음 셀의 input으로 들어가며, EOS를 생성할 때까지 작업이 반복된다.

학습에 사용된 모델구조 ->  4 layer LSTM, 1000 cell, 1000 dimension embedding, initialization (-0.08~0.08, uniform distribution), SGD, lr 0.7, epoch마다 learning rate 조정, Exploding gradient 발생으로 gradient 값을 clipping 하였음, 미니배치 안에서의 문장 길이 고정함