ADP실기공부/기초
R 사분위수 이상치 공식 및 데이터분석을 위한 전처리 코드
달문달
2023. 3. 17. 12:37
1. IQR 구하기
IQR 이란? Q3(75%)-Q1(25%)
즉, box plot에서 박스범위 의미
IQR활용한 이상치 공식
(q1-1.5*iqr) < x data < (q3 + 1.5*iqr) 를 벗어나는값
관련코드
#4분위수 확인하기
qunatile(df$열)
#최대 최소 일치하는지 확인하기
min(df$열)
max(df$열)
#iqr구하기
q1= quantile(df$열, 0.25)
q3= quantile(df$열,0.75)
iqr=q3-q1
또는
iqr=IQR(df$열) #IQR 바로 구하는 함수 사용
2. 이상치 구하기
#이상치만있는 row만출력
con1= df$열 <(q1 - 1.5*iqr)
con2= df$열 >(q3 + 1.5*iqr)
df_out=df[con1|con2, ]
#이상치 없는 데이터셋 출력하기
df_out=df[ ! (con1|con2), ] # !반대이용
또는
con3 = df$열 >= (q1 - 1.5*iqr)
con4 = df$열 <=(q3 + 1.5*iqr)
df_in = df[con3&con4, ]