r - 예제 - 랜덤포레스트 시각화



R의 RandomForest 함수에서 'classwt'매개 변수가 의미하는 것은 무엇입니까? (1)

무거운 불균형 한 데이터가있을 때 classwt 매개 변수를 설정할 수 있습니까? 강사의 강사는 강하게 다릅니다.

예, classwt의 설정 값은 불균형 데이터 세트에 유용 할 수 있습니다. 그리고 저는 조란 (Josean)과 동의합니다.이 값은 샘플링 훈련 데이터에 대한 가능성이 있다고합니다 (원본 기사의 Breiman의 주장에 따라).

(p1, p2, p3)과 같은 priors 벡터를 가지고 있고, test set priors에서 (q1, q2, q3)를 갖는 3 개의 클래스를 가진 training dataset에서 classwt를 설정하는 방법은 무엇입니까?

교육을 위해 간단하게 지정할 수 있습니다.

rf <- randomForest(x=x, y=y, classwt=c(p1,p2,p3))

테스트 세트의 경우 사전은 사용할 수 없습니다. 1) randomForest 패키지의 predict 방법에는 이러한 옵션이 없습니다. 2) 가중치는 예측을위한 것이 아니라 모델의 훈련에만 의미가있다.

randomforest::randomforest() 도움말 페이지는 다음과 같습니다 :

"classwt - 클래스의 제원. 하나까지 추가 할 필요가 없습니다. 회귀를 무시합니다."

심하게 불균형 한 데이터가있을 때 classwt 매개 변수를 설정하면 도움이 될 수 있습니다. 클래스의 선임자는 강하게 다르다?

(p1, p2, p3)와 동일한 priors 벡터를 가진 3 개의 클래스를 가진 데이터 집합에서 모델을 훈련 할 때 클래스를 어떻게 설정해야합니까? 그리고 테스트 집합 priors는 (q1, q2, q3)입니까?





random-forest