Query

입력 시퀀스에서 관련된 부분을 찾으려고 하는 정보 벡터(소스)

Key

관계 연관도를 결정하기 위해 query와 비교하는데 사용되는 벡터(타켓)

Value

특정 key에 해당하는 입력 시퀀스의 정보를 가중치로 구하는데 사용되는 벡터(value)

Linear-Layer

image.png

Emb + Pos가 Linear 연산을 거치는 이유는 query, key, value 각각의 차원을 줄여서 병렬 연산에 적합한 구조를 만들기 위해서이다.

Attention score

image.png

query와 key 행렬 내적을 통해 Attention score을 얻는다.

image.png

Attention score란 행렬 간의 유사도를 의미한다.

image.png

코사인 유사도는 두 벡터가 유사할수록 값이 1에 가까워지고 두 벡터가 다를수록 값이 -1에 가까워지는 특징을 가지고있다.

image.png