책보다는 최신기술을 공부하면 좋음.

구글링으로 최신자료보기 (상위 2-3개)
구글링으로 cheat sheet(치트시트) 보기
주로쓰는 패키지는 프린트해서 자주보며 익숙해지기

하루 200줄 코딩하기

챗GPT에게 R코드 작성해달라고하기
ex) 랜덤포레스트분석을 위한 R코드를 작성해줘
해당 코드에 대해 한줄씩 알려달라하기
해당 코드 해석 및 공부하기




* 주로쓰는 패키지

dplyr : 데이터전처리에 유용, 샘플링 sample_frac, 데이터병합 join

ggplot2 : 대부분 그래프 가능, 부족시 ggplot2
extension 검색후 추가 다운로드

caret : 분류knn3와 회귀knnreg모델, 정규화preProcess

car : 다중공선성문제 vif

reshape2 : 데이터구조변환하기 melt, dcast

fastDummies : 명목변수 더미화

caTools : 샘플링 sample.split

cluster : 군집분석, 실루엣계수

lubridate : 시간과 날짜 다루기

Metrics : 회귀평가 rmse, precision, auc

rpart : 의사결정나무 + rpart.plot : 그래프

e1071 : 왜도, 첨도, 나이브베이즈

리스트(list)

-벡터, 데이터프레임, 배열, 함수 등 모든 객체 담을 수 있는 데이터 구조

-(키, 값) 형태

-각 개체에 이름 지정해서 저장가능, 저장할 객체들 길이 달라도 무방

 

1. 리스트 생성

list(키1=값1, 키2=값2,..)

 

v1= c("a","b")

v2=c(T,F,F)

v3=data.frame(subject=c("a","B"), class=c("1","2"))

변수명 = list(키1=v1,키2=v2,키3=v3)

 

2.리스트에서 원소 추출

a$v1 #a리스트에서 키값이 v1에 해당하는 원소 출력

a[2] #a리스트에서 2번째 키값에 해당하는 원소 출력

a[["v1"]] #v1이라는 키값의 원소 출력

 

 

 

배열(array)

-배열은 3차원 이상까지 확장된 형태의 다차원 데이터

 

1. 배열 생성

array(데이터, dim=c(행의수, 열의수, 매트릭스수), dimnames=list(~))

array(1:27, dim=c(3,3,3), dimnames=list(c("1행","2행","3행"), c("1열","2열","3열"),c("1행렬","2행렬","3행렬"))

 

+ Recent posts