단순선형 회귀분석의 목표

독립변수(x) 여러개와 종속변수(y)1개 간 선경관계 파악하고 예측에 활용하는 통계적 방법

 

회귀식 : y = b0 + b1x1+b2x2+...+bnxn

 

주요 이론

- 단순선형 회귀분석에서 확장

- coefficients : EstimateStd. 부분이 중요

여기서 중요한건 b0의 상수항. lm()결과의 intercept값임

- *** 표시된 독립변수가 종속변수 설명하는데 중요한 변수 의미

- adjsted R-squared : 모델 설명력. 클수록 좋음. 0~1값 가짐. 

- p-value 값(유의수준) : 신뢰수준. 작을수록 좋음.

 통상 0.05미만이면 95%이상의 신뢰수준으로 통계적 유의미함

-다중선형 회귀모델에서 변수의 선택 : 독립변수가 많으면 복잡, 적을수록 좋음.

  모든 독립변수가 종속변수 설명을 동일하게 기여하는 것은 아님

  기여도가 낮은 변수는 제외하는게 좋음.

 - stepAIC()함수 : R은 모델 기여 변수 선별

 

주요 R코드 (암기)

plot(데이터셋, pch=16, col="blue", main ="Matrix Scatterplot") #산점도에서 변수간 상관관계확인

모델1 = lm(종속변수~독립변수1+독립변수2+독립변수..., 데이터셋) #다중선형회귀분석 모델학습

         또는  = lm(종속변수~ . ,데이터셋)  # dot . 은 모든 독립변수 대체 의미

모델2 = stepAIC(모델1)  #변수선택

summary(모델2)  #내용확인

 

*

*

*

 

다중선형회귀분석 R실습

문제 : 여러독립변수 이용해 Prestige에측

 

#실습코드

library(car)

#1)데이터셋 확인

head(Prestige)

class(Prestige)

df = Prestige[ ,c(1:4)] #필요데이터만 정리

plot(df, pch=16, col="blue", main = "Matrix Scatterplot") #산점도

 

#2)회귀모델 학습

model1 = lm(income~ . , data = df)

summary(model1) #결과확인 #coefficients, ***, R-squared, p-value확인

 

#3)변수선택 <-패키지다운, library(MASS)

df2 = Prestige[,c(1:5)] #데이터준비

head(df2) #데이터확인

model2 = lm(income ~ . , data= df2) #회귀모델 만들기

model3 = stepAIC(model2) #기여도 고려 독립변수 선별 제거

 

#4)결과비교하기. adjusted R-squared값 비교

summary(model1)

summary(model3)

 

#예상치와 실제값 비교

women_1 = 11

prestige_1 = 68

income_pred = 431.574 -(48.385*women_1) +(165.875*prestige_1)

 

 

########################################################################

 

 

 

 

 

+ Recent posts