https://www.blossominkyung.com/deeplearning/transfomer-positional-encoding
Transformer 블록은 permutation-invariant (입력 순서가 뒤바뀌어도 똑같은 출력이 나온다.)
따라서, Transformer 모델이 같은 단어들로 이루어진 입력 sequence에 대해서도, 서로 다른 어순을 구별하도록하기 위해, 각 단어에 현재 위치 정보를 넣을 필요가 있다.
Sinusoidal function, Positional embedding을 사용하기도 한다.
Sinusoidal function: 서로 다른 주파수를 가진 function
각 Block은 두 개의 sub-layer로 이루어짐
Multi-head attention: Sequence dimension 축으로 Attention 적용
Two-layer perception: Hidden dimension 축으로 MLP 적용, ReLU activation 사용
각 Sub-layer는 다음 두 요소를 갖는다.
Residual connection