빅데이터, 데이터분석

빅데이터 회귀분석의 기본이론

톰이야요 2023. 5. 20. 23:30

 

빅데이터 분석 프로젝트를 하게 되었습니다. 프로젝트라고 하니 뭔가 거창한 느낌이긴 한데, 혼자서 1년간 공부하고 실제 결과물까지 만들어 본 값진 경험이라 할까나요? ㅎㅎ

컴퓨터 프로그래밍이 주가 아닌 수학, 통계적인 다양한 이론적 지식의 필요성을 많이 느끼게 되었는데, 빅데이터의 회귀분석에 대해 간단히 정리하고 다음 포스팅에서는 실제 회귀분석을 수행한 소스코드를 공유하고자 합니다.

 


회귀분석의 정의

 

○ 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법

○ 독립변수의 갯수가 하나이면 단순선형회귀분석, 독립변수의 갯수가 두 개 이상이면 다중선형회귀분석으로 분석할 수 있다.

 

 

회귀분석의 가정

 

○ 선형성: 입력변수와 출력변수의 관계가 선형이다.

○ 등분산성: 오차의 분산이 입력변수와 무관하게 일정하다. 잔차 플롯을 활용하여 잔차와 입력변수 간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족

○ 독립성: 입력변수와 오차는 관련이 없다.

○ 비상관성: 오차들끼리 상관이 없다.

○ 정상성(정규성): 오차의 분포가 정규분포를 따른다.

 

 

 

가정에 대한 검증

 

○ 단순선형회귀분석: 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인

○ 다중선형회귀분석: 선형성, 등분산성, 독립성, 정상성이 모두 만족하는지 확인

 

 


 

 

단순선형회귀분석

하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법

 

○ 회귀계수들이 유의미한가?

- 해당 계수의 t통계량의 p-값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있다.

○ 모형이 얼마나 설명력을 갖는가?

- 결정계수(R^2)를 확인한다. 결정계수는 0~1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

○ 모형이 데이터를 잘 적합하고 있는가?

- 잔차를 그래프로 그리고 회귀진단을 한다.

 

○ 회귀분석의 검정

- 회귀계수 β1이 0이면 입력변수 x와 출력변수 y사이에는 아무런 인과관계가 없다.

- 회귀계수 β1이 0이면 적합된 추정식은 아무 의미가 없게 된다.

- 결정계수(R^2)는 전체 데이터를 회귀모형이 설명할 수 있는 설명력을 의미한다.

- 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수가 높아지므로 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수가 높아지는 단점이 있다...

 

 

 

다중선형회귀분석

 

독립변수가 k개이며 종속변수와의 관계가 선형(1차함수)

 

 

○ 모형의 통계적 유의성 (F통계량)

- 유의수준 5%하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.

- F통계량이 크면 p-value가 0.05보다 작아지고 이렇게 되면 귀무가설을 기각한다. 즉 모형이 유의하다고 결론 지을 수 있다.

○ 회귀계수의 유의성 (t통계량)

○ 모형의 설명력 (결정계수)

○ 모형의 적합성 (잔차와 종속변수의 산점도)

○ 데이터가 전제하는 가정을 만족시키는가? (선형성, 등분산성, 독립성, 정상성)

○ 다중공선성(multicolinearity)

- 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 어렵다.

- 분산팽창요인(VIF): 4보다 크면 다중공선성이 존재한다고 볼 수 있고, 10보다 크면 문제가 있는걸로 해석할 수 있다...

- 상태지수: 10 이상이면 문제가 있다고 보고, 30보다 크면 심각한 문제가 있다고 해석 할 수 있다.

 

 

 

 

그 외의 회귀분석 종류

○ 로지스틱 회귀: 종속변수가 범주형(2진변수)인 경우에 적용되며, 단순 로지스틱 회귀 및 다중, 다항 로지스틱회귀로 확장할 수 있음

○ 다항회귀: 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단, k=1이면 2차함수 이상)

○ 곡선회귀: 독립변수가 1개이며 종속변수와의 관계가 곡선

○ 비선형회귀: 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형