1. 선형회귀란?

선형 회귀는 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법이다.

독립 변수와 종속 변수 사이에는 선형 관계가 있어야 한다. 이 관계를 확인하기 위해 데이터 사이언티스트는 x 및 y 값의 무작위 모음인 산점도를 만들어 직선을 따라 표시되는지 확인한다. 그렇지 않은 경우 제곱근이나 로그와 같은 비선형 함수를 적용하여 두 변수 간의 선형 관계를 수학적으로 만들 수 있다.

[aws] linear-regression

  1. 상관 관계 분석

상관계수를 결정하는 방법에는 크게 세 가지, [결정계수, 피어슨상관계수, 스피어만 상관계수]가 있는데 가장 잘 사용되는게 피어슨상관계수이다.

$$ 피어슨상관계수 = \frac{공분산}{표준편차*표준편차} $$

피어슨상관계수란 두 변수 X와 Y 간의 선형 상관 관계를 계량화한 수치이다. 공분산은 2개의 확률변수의 선형관계를 나타내는 값이다. 공분산을 표준화하기 위해 표준편차의 곱으로 나눠준다.

상관 관계를 분석하는 수식 표현은 아래와 같다.

$$ r_{xt} = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(t_i - \overline{t})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (t_i - \overline{t})^2}} $$

상관 관계를 분석하는 코드 표현은 아래와 같다.

np.corrcoef(x,t)
  1. 선형회귀모델

$$ H(x) = wx +b $$

선형 회귀에서 해야할 일은 결국 적절한 𝑤와 𝑏를 찾아내는 일이다.