Paper
2021. 3. 4.
[논문] GPT-2
Overview GPT-2는 트랜스포머의 디코더만 사용하는 langauge model 이다. 인코더를 사용하는 BERT와 다르게 auto-regressive하다. 즉, 시작 token '' 로 token 'The' 를 추정하고 추정된 'The' 를 다시 인풋으로 다음 token을 추정한다. 각 디코더는 masked self-attention과 FC로 구성, 기존 트랜스포머에 있는 encoder-decoder self-attention은 인코더가 없기에 사용하지 않는다. Input embedding 인풋 token 임배딩은 byte pair encoding을 사용, GPT 모델 크기에 따라 임배딩 차원이 정해진다. Masked Self-Attention Masked self attention은 현재 que..