LSTM의 구조

RNN과 같이 매 Time Step마다 반복적으로 동일 모듈을 적용

LSTM 안에는 4개의 벡터를 계산하는 신경망이 존재.

image.png

LSTM의 Notation

image.png

LSTM의 구조

image.png

input gate가 현재 Time step에서 계산한 정보의 출력을 조절하고, forget gate가 $c_{t-1}$을 조절

Cell state의 정보를 어떠한 왜곡 없이 전달할 수 있는 능력을 가진다. 따라서 장기 기억 문제를 해결할 수 있다.

forget gate : 얼마나 이전 cell state를 기억할지 설정

$f_t = \sigma(W_f [h_{t-1}; x_t] + b_f)$

image.png

정보를 생성하고 이를 input gate로 잘라내어 추가

$i_t = \sigma(W_i [h_{t-1}; x_t] + b_i), \quad \tilde{c}t = \tanh(W_g [h{t-1}; x_t] + b_g)$

image.png