RNN과 같이 매 Time Step마다 반복적으로 동일 모듈을 적용
LSTM 안에는 4개의 벡터를 계산하는 신경망이 존재.
input gate가 현재 Time step에서 계산한 정보의 출력을 조절하고, forget gate가 $c_{t-1}$을 조절
Cell state의 정보를 어떠한 왜곡 없이 전달할 수 있는 능력을 가진다. 따라서 장기 기억 문제를 해결할 수 있다.
forget gate : 얼마나 이전 cell state를 기억할지 설정
$f_t = \sigma(W_f [h_{t-1}; x_t] + b_f)$
정보를 생성하고 이를 input gate로 잘라내어 추가
$i_t = \sigma(W_i [h_{t-1}; x_t] + b_i), \quad \tilde{c}t = \tanh(W_g [h{t-1}; x_t] + b_g)$