7강 8강 Transformer

Transformer 블록은 permutation-invariant (입력 순서가 뒤바뀌어도 똑같은 출력이 나온다.)

따라서, Transformer 모델이 같은 단어들로 이루어진 입력 sequence에 대해서도, 서로 다른 어순을 구별하도록하기 위해, 각 단어에 현재 위치 정보를 넣을 필요가 있다.

Sinusoidal function, Positional embedding을 사용하기도 한다.

Sinusoidal function: 서로 다른 주파수를 가진 function

각 Block은 두 개의 sub-layer로 이루어짐

Multi-head attention: Sequence dimension 축으로 Attention 적용

Two-layer perception: Hidden dimension 축으로 MLP 적용, ReLU activation 사용

각 Sub-layer는 다음 두 요소를 갖는다.

Residual connection