표본추출 샘플링을 위한 R함수와 패키지들

2023. 3. 16. 13:17

먼저 샘플링에 앞서
매번 샘플링 코드를 실행할때마다
결과값이 달라져요.
데이터분석을 쭉 진행하기위해서는
결과값을 고정해야합니다.
set.seed(숫자)
위 함수를 샘플링 코드와 !함께! 실행시킨후
빈그릇인 변수에 저장해줘야
결과값이 일정하게 나옵니다.

#기본함수를 이용한 샘플링

set.seed(1234)
df=sample(1:45, size = 6) #단순추출
, replace = TRUE #해당 옵션으로 복원추출 가능

#dplyr 패키지을 이용한 샘플링

sample_n(1:100, 6) #6 갯수로 추출
sample_frac(df , 0.05) #5% 비율로 추출

마찬기지로
, replace =TRUE #옵션으로 복원 추출가능

#caTools 패키지를 이용한 샘플링

sample.split(df, SplitRatio=0.7) #70% 추출

#R 샘플링 문제예시

문제1.
%%기준별 5%씩 행 추출시 추출되는 총 행의 갯수?

핵심문법
dplyr의 %>% #파이프
#데이터df에 대해서 연속으로
연산 및 문법처리가 가능하도록 이어주는 역할
#엔터시 %>% 뒤에서 엔터처리해야 오류안뜸
dplyr::group_by #그룹별 처리
dplyr::sample_frac(size=0.05) #5%샘플추출
nrow() #행개수

핵심답
df %>% group_by(기준열) %>%
    sample_frac(size=0.5 ) %>%
    nrow()

문제2.
학습데이터세트와 평가데이터 세트를 7:3 비율로 분리시 평가데이터의 a열의 평균은? #기본함수 sample이용해라

핵심문법 :
sample(추출할범위, 크기개수)
#sample(1:df의마지막행번호,추출비*전체행수)

핵심답
set.seed(123)
idx_train = sample(1:nrow(df) ,0.7*nrow(df))
df_train = df[idx_train, ]
df_test = df[  -idx_rain, ]
mean(df_train$a)

'ADP실기공부 > 기초' 카테고리의 다른 글

R 사분위수 이상치 공식 및 데이터분석을 위한 전처리 코드 (0)	2023.03.17
R함수 파생변수 요약변수 생성 #데이터전처리 (0)	2023.03.16
결측치 처리를 위한 R함수 #데이터전처리 (0)	2023.03.16
데이터전처리에 유용하게 쓰이는 암기해야할 R함수들 (1)	2023.03.16
R로 csv 엑셀파일을 읽어들여 분석하기위한 기본세팅 문법들 (0)	2023.03.16

94년생 직장인 공부기록