가중치의 기울기 dW2를 계산하는 과정은 신경망의 역전파(backpropagation)에서 매우 중요한 단계. 이 과정은 출력층의 가중치 W2가 손실에 미치는 영향을 측정하고, 이 정보를 바탕으로 가중치를 업데이트하여 모델이 더 나은 예측을 할 수 있도록 돕는다.

가중치 W2의 기울기 dW2 계산

가중치의 기울기 dW2는 다음과 같이 계산된다.

$$

dW2 = \frac{1}{m} \cdot A1^T \cdot dZ2 $$

$A1^T$는 은닉층의 활성화 값, $A1$의 전치 행렬 (shape: hidden_nodes x m).

$dZ2$는 출력층의 오차 (shape: m x num_classes).

$m$은 미니 배치의 크기, 즉 한 번에 처리되는 샘플 수. 이는 기울기가 미니 배치의 크기에 의존하지 않도록 만들어준다.

은닉층의 각 노드가 출력층의 오차에 얼마나 기여했는지를 나타내는 기울기를 계산한다.

기울기의 의미

기울기 dW2는 가중치 W2를 어떻게 업데이트할지를 결정하는데 사용된다.

만약 dW2의 값이 양수라면, 해당 가중치는 감소되어야 하며(손실을 줄이기 위해).

만약 dW2의 값이 음수라면, 해당 가중치는 증가되어야 한다.

이 기울기를 사용하여, 신경망은 손실을 최소화하는 방향으로 가중치 W2를 조정하며 학습하게 된다.

전체적인 흐름

역전파에서 계산된 기울기 dW2는 경사하강법 등의 최적화 알고리즘에 의해 사용되어 가중치 W2를 업데이트한다. 이 과정은 여러 번 반복되며, 각 반복(iteration)마다 모델의 예측 정확도가 점차 향상된다.