목록caret (3)
YOGYUI
랜덤포레스트 분석모델을 구현했을 때, 모델의 특성을 파악하는데 사용되는 방법 중 하나가 '변수 중요도(variable importance)'이다 변수중요도를 측정하는 지표는 Mean Decrease Gini (평균 지니불순도 감소량)이며, 랜덤포레스트 구축 시 노드를 늘려감에 따라 데이터의 변수(속성)가 지니불순도 감소량에 얼마나 영향을 미치는 지를 계산하게 되며, 감소량이 클수록 학습 시 중요한 변수로 작용했다고 할 수 있다 지니불순도와 관련된 자세한 내용은 다음 글을 참고하도록 한다 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sungmk86&logNo=221204932461 Mean Decrease Gini 결론 : Ran..
분류분석 시 혼동행렬(Confusion Matrix)은 모델의 Accuracy, Sensitivity, Specificity 등 성능 지표를 계산하기 위해 기본적으로 작성하는 테이블이다 (참고: 링크) 표를 통해 정확도, 민감도, 특이도, 재현율, F1-Score 등을 계산할 수 있는데, 이를 한번에 해결해줄 수 있는 툴이 바로 caret 패키지의 confusionMatrix 함수다 confusionMatrix {caret} Create a confusion matrix Description Calculates a cross-tabulation of observed and predicted classes with associated statistics. Usage confusionMatrix(data, ..
caret 패키지의 preProcess 함수를 활용하면 수치형 데이터 정규화 (normalization) 및 표준화 (standardization)을 쉽게 수행할 수 있으며, 특정 데이터셋에 적용된 min, max, average 등 파라미터를 다른 데이터셋에 적용하는 것도 가능하다 (ex: 머신러닝 훈련용 데이터셋에 정규화 적용 후, 계산시 사용된 값을 테스트용 데이터셋에 그대로 적용) iris 데이터를 두 세트로 나눈뒤 실습해보도록 한다 set.seed(210617) library(caret) df