단순선형 회귀분석의 목표
독립변수(x) 여러개와 종속변수(y)1개 간 선경관계 파악하고 예측에 활용하는 통계적 방법
회귀식 : y = b0 + b1x1+b2x2+...+bnxn
주요 이론
- 단순선형 회귀분석에서 확장
- coefficients : EstimateStd. 부분이 중요
여기서 중요한건 b0의 상수항. lm()결과의 intercept값임
- *** 표시된 독립변수가 종속변수 설명하는데 중요한 변수 의미
- adjsted R-squared : 모델 설명력. 클수록 좋음. 0~1값 가짐.
- p-value 값(유의수준) : 신뢰수준. 작을수록 좋음.
통상 0.05미만이면 95%이상의 신뢰수준으로 통계적 유의미함
-다중선형 회귀모델에서 변수의 선택 : 독립변수가 많으면 복잡, 적을수록 좋음.
모든 독립변수가 종속변수 설명을 동일하게 기여하는 것은 아님
기여도가 낮은 변수는 제외하는게 좋음.
- stepAIC()함수 : R은 모델 기여 변수 선별
주요 R코드 (암기)
plot(데이터셋, pch=16, col="blue", main ="Matrix Scatterplot") #산점도에서 변수간 상관관계확인
모델1 = lm(종속변수~독립변수1+독립변수2+독립변수..., 데이터셋) #다중선형회귀분석 모델학습
또는 = lm(종속변수~ . ,데이터셋) # dot . 은 모든 독립변수 대체 의미
모델2 = stepAIC(모델1) #변수선택
summary(모델2) #내용확인
*
*
*
다중선형회귀분석 R실습
문제 : 여러독립변수 이용해 Prestige에측
#실습코드
library(car)
#1)데이터셋 확인
head(Prestige)
class(Prestige)
df = Prestige[ ,c(1:4)] #필요데이터만 정리
plot(df, pch=16, col="blue", main = "Matrix Scatterplot") #산점도
#2)회귀모델 학습
model1 = lm(income~ . , data = df)
summary(model1) #결과확인 #coefficients, ***, R-squared, p-value확인
#3)변수선택 <-패키지다운, library(MASS)
df2 = Prestige[,c(1:5)] #데이터준비
head(df2) #데이터확인
model2 = lm(income ~ . , data= df2) #회귀모델 만들기
model3 = stepAIC(model2) #기여도 고려 독립변수 선별 제거
#4)결과비교하기. adjusted R-squared값 비교
summary(model1)
summary(model3)
#예상치와 실제값 비교
women_1 = 11
prestige_1 = 68
income_pred = 431.574 -(48.385*women_1) +(165.875*prestige_1)
########################################################################
'ADP실기공부 > 응용' 카테고리의 다른 글
R 데이터분석 - 직업별 월급 최대 찾기 문제 (0) | 2023.04.25 |
---|---|
R데이터분석 - 로지스틱 회귀분석 분류문제 (0) | 2023.04.24 |
로지스틱 회귀분석 R실습 (0) | 2023.03.14 |
단순회귀분석 R 실습 (0) | 2023.03.14 |