다중선형 회귀분석 R실습

2023. 3. 14. 16:45

단순선형 회귀분석의 목표

독립변수(x) 여러개와 종속변수(y)1개 간 선경관계 파악하고 예측에 활용하는 통계적 방법

회귀식 : y = b0 + b1x1+b2x2+...+bnxn

주요 이론

- 단순선형 회귀분석에서 확장

- coefficients : EstimateStd. 부분이 중요

여기서 중요한건 b0의 상수항. lm()결과의 intercept값임

- *** 표시된 독립변수가 종속변수 설명하는데 중요한 변수 의미

- adjsted R-squared : 모델 설명력. 클수록 좋음. 0~1값 가짐.

- p-value 값(유의수준) : 신뢰수준. 작을수록 좋음.

통상 0.05미만이면 95%이상의 신뢰수준으로 통계적 유의미함

-다중선형 회귀모델에서 변수의 선택 : 독립변수가 많으면 복잡, 적을수록 좋음.

모든 독립변수가 종속변수 설명을 동일하게 기여하는 것은 아님

기여도가 낮은 변수는 제외하는게 좋음.

- stepAIC()함수 : R은 모델 기여 변수 선별

주요 R코드 (암기)

plot(데이터셋, pch=16, col="blue", main ="Matrix Scatterplot") #산점도에서 변수간 상관관계확인

모델1 = lm(종속변수~독립변수1+독립변수2+독립변수..., 데이터셋) #다중선형회귀분석 모델학습

또는 = lm(종속변수~ . ,데이터셋) # dot . 은 모든 독립변수 대체 의미

모델2 = stepAIC(모델1) #변수선택

summary(모델2) #내용확인

다중선형회귀분석 R실습

문제 : 여러독립변수 이용해 Prestige에측

#실습코드

library(car)

#1)데이터셋 확인

head(Prestige)

class(Prestige)

df = Prestige[ ,c(1:4)] #필요데이터만 정리

plot(df, pch=16, col="blue", main = "Matrix Scatterplot") #산점도

#2)회귀모델 학습

model1 = lm(income~ . , data = df)

summary(model1) #결과확인 #coefficients, ***, R-squared, p-value확인

#3)변수선택 <-패키지다운, library(MASS)

df2 = Prestige[,c(1:5)] #데이터준비

head(df2) #데이터확인

model2 = lm(income ~ . , data= df2) #회귀모델 만들기

model3 = stepAIC(model2) #기여도 고려 독립변수 선별 제거

#4)결과비교하기. adjusted R-squared값 비교

summary(model1)

summary(model3)

#예상치와 실제값 비교

women_1 = 11

prestige_1 = 68

income_pred = 431.574 -(48.385*women_1) +(165.875*prestige_1)

########################################################################

'ADP실기공부 > 응용' 카테고리의 다른 글

R 데이터분석 - 직업별 월급 최대 찾기 문제 (0)	2023.04.25
R데이터분석 - 로지스틱 회귀분석 분류문제 (0)	2023.04.24
로지스틱 회귀분석 R실습 (0)	2023.03.14
단순회귀분석 R 실습 (0)	2023.03.14

94년생 직장인 공부기록

다중선형 회귀분석 R실습

'ADP실기공부 > 응용' 카테고리의 다른 글

+ Recent posts

티스토리툴바