Query
입력 시퀀스에서 관련된 부분을 찾으려고 하는 정보 벡터(소스)
Key
관계 연관도를 결정하기 위해 query와 비교하는데 사용되는 벡터(타켓)
Value
특정 key에 해당하는 입력 시퀀스의 정보를 가중치로 구하는데 사용되는 벡터(value)
Emb + Pos가 Linear 연산을 거치는 이유는 query, key, value 각각의 차원을 줄여서 병렬 연산에 적합한 구조를 만들기 위해서이다.
query와 key 행렬 내적을 통해 Attention score을 얻는다.
Attention score란 행렬 간의 유사도를 의미한다.
코사인 유사도는 두 벡터가 유사할수록 값이 1에 가까워지고 두 벡터가 다를수록 값이 -1에 가까워지는 특징을 가지고있다.