[번역] 그림으로 설명하는 GPT-2 (Transformer Language Model 시각화)

파트 1: GPT2와 Language Modeling
- Language Model이란
- Language Modeling을 위한 Transformer
- BERT와 한가지 차이점
- Transformer block의 진화
- GPT-2의 내부를 살펴보기
- 더 깊이 알아보기
- 파트 1의 마무리: 몇가지 안내사항
파트 2: 그림으로 설명하는 Self-Attention
- (Masking 없는) Self-Attention
- 1- Query, Key, Value 벡터 todtjd
- 2- Score 걔산
- 3- 전체 합산
- 그림으로 설명하는 Masked Self-Attention
- GPT-2의 Masked Self-Attention
- 드디어 해냈습니다! ‘It’을 만들어냈습니다!
파트 3: Language Modeling, 그 이상의 것
- 기계 번역(Machine Translation)
- 요약(Summarization)
- 전이 학습(Transfer Learning)
- 음악 생성(Music Generation)

파트 #1: GPT2와 Language Modeling #

Language Model 이란

Language Modeling을 위한 Transformer

BERT와 한가지 차이점

First Law of Robotics
A robot may not injure a human being or, through inaction, allow a human being to come to harm.
(로보틱스 제1원칙: 로봇은 인간에 해를 가하거나, 혹은 행동을 하지 않음으로써 인간에게 해가 가도록 해서는 안 된다.)

Transformer block의 진화

Encoder block

Decoder block

The Decoder-Only Block

GPT-2의 내부를 살펴보기

Look inside and you will see, The words are cutting deep inside my brain. Thunder burning, quickly burning, Knife of words is driving me insane, insane yeah. ~Budgie
(Budgie의 노래 “Crash Course in Brain Surgery” 중에서)

더 깊이 알아보기

입력 Encoding

상위 Stack으로의 이동

Self-Attention Recap

Second Law of Robotics
A robot must obey the orders given it by human beings except where such orders would conflict with the First Law.
(로보틱스 제2원칙: 로봇은 인간이 그것에 내리는 명령들에 복종해야만 하며, 단 이러한 명령들이 제1원칙에 위배될 때는 예외로 한다.)

Self-Attention 프로세스

모델 출력

파트 #1의 마무리: 몇가지 안내사항

파트 #2: 그림으로 설명하는 Self-Attention #

(Masking 없는) Self-Attention

1- Query, Key, Value Vector 생성

1) 각 input token 마다, weight matrix W^Q, W^K, W^V를 곱하여 query vector, key vector, value vector를 생성합니다.

2- Score 계산

2) 현재의 query vector와 모든 key vector가 얼마나 잘 매칭되는지 score를 얻기 위해 곱셈(dot product) 연산을 합니다.

3- 전체 합산

3) value vector들을 score들과 곱한 뒤 모두 합산합니다.

그림으로 설명하는 Masked Self-Attention

GPT-2의 Masked Self-Attention

평가 시: 한번에 한 토큰씩 처리

GPT-2의 Self-attention: 1- querie, key, value 값들 생성

GPT-2의 Self-attention: 1.5- attention head로 분할하기

GPT-2의 Self-attention: 2- Score 계산하기

GPT-2의 Self-attention: 3- 합산하기

GPT-2의 Self-attention: 3.5- attention head를 합치기(merge)

GPT-2의 Self-attention: 4- Projecting

GPT-2의 Fully-Connected Neural Network: #1번 레이어

GPT-2의 Fully-Connected Neural Network: #2번 레이어 - 모델 차원으로 projection 하기

드디어 해냈습니다! ‘It’을 만들어냈습니다!

파트 3: Language Modeling, 그 이상의 것 #

기계번역(Machine Translation)

요약(Summarization)

전이 학습(Transfer Learning)

음악 생성(Music Generation)

결론

참고자료

감사의 글

추가 정보.

이 글은 GPT2에 대해 이해하기 쉽게 그림으로 설명한 포스팅을 저자인 Jay Alammar님의 허락을 받고 번역한 글 입니다. 원문은 The Illustrated GPT-2 (Visualizing Transformer Language Models)에서 확인하실 수 있습니다.
원서/영문블로그를 보실 때 term에 대한 정보 호환을 위해, 이 분야에서 사용하고 있는 단어, 문구에 대해 가급적 번역하지 않고 원문 그대로 두었습니다. 그리고, 직역 보다는 개념이나 의미에 대한 설명을 쉽게 하는 문장 쪽으로 더 무게를 두어 번역 했습니다. 번역에 대한 의견이나 수정 사항은 아래 댓글 창에 남겨주세요.
번역문에 대응하는 영어 원문을 보고싶으신 분들을 위해 찬님께서 만들어두신 툴팁 도움말 기능(해당 문단에 마우스를 올리면 (모바일의 경우 터치) 원문을 확인할 수 있는 기능)을 가져와서 적용했습니다. 감사합니다.