로지스틱 또는 의사결정나무같은 분류모형에서 설명변수(x)를 선택하려고 합니다.
이때 설명변수가 약 3000개로 전진선택법이나 후진소거법을 바로 적용하기가 어렵습니다.
범주형 설명변수(x) 와 범주형 반응변수(y)의 경우 카이제곱 통계량을 통해 선택할 수 있을것 같은데,
연속형, 범주형 설명변수(x) 와 범주형 반응변수(y)가 같이있는 경우 가볍게 걸러낼수 있는 방법이 어떤게 있을까요?
No. | Subject | Author | Date |
---|---|---|---|
594 | diagnostic accuracy [1] | 쑤니 | 2019.03.07 |
593 | 생존분석 질문입니다. [2] | 박소이 | 2019.03.06 |
592 | 표만들기 오류 [1] | 김밥친구 | 2019.03.03 |
» | 변수선택 관련 질문 드립니다. [1] | chamchi | 2019.02.28 |
590 | forest plot 그리는 법 문의 드립니다. [1] | 강민정 | 2019.02.24 |
589 | matchIt 함수 사용시 질문 있습니다. [1] | YJK | 2019.02.23 |
588 | ORplot 관련하여 질문드립니다. | 매직하마 | 2019.02.23 |
587 | mytable 함수 에러 [3] | iddrlee | 2019.02.21 |
586 | 범주형 변수 생존 분석시 log rank와 cox univariate 결과 해석에 대해 질문 드립니다. [1] | 소외 | 2019.02.20 |
585 | 회귀분석에서의 범주형변수 [4] | 에곤쉴레 | 2019.02.20 |
584 | Survdiff로 log-rank test 시 P-value 소수점 [3] | begabung | 2019.02.15 |
583 | 정회원 서버 신청 문의입니다. [2] | chl065512 | 2019.02.13 |
582 | mytable 관련 질문드립니다 [3] | 낡은찻잔 | 2019.02.12 |
581 | web-R 기반 분석 후 다운로드 관련 문의점 | kato7 | 2019.02.11 |
580 | stepwise logistic 회귀에서 결측치 문제 질문드립니다. [2] | 매직하마 | 2019.02.10 |
579 | 데이터 업로드에 오류가 반복되어 생깁니다. | kato7 | 2019.02.07 |
578 | table 작성시 오류 | 김날 | 2019.02.07 |
577 | 문의 드립니다. [1] | 김날 | 2019.01.31 |
576 | 표 만들기에서 계속 error 가 납니다. [3] | 세희맘 | 2019.01.30 |
575 | Risk scoring??? [1] | 홍성엽 | 2019.01.28 |
변수가 3000개면 차라리 PCA 나 Factor analysis 를 통해서 어느 정도 정리를 하시는게 낫지 않을까 싶습니다.
3000개를 다 넣어서 얻을 이득과, 그로 인한 손해를 고려해보시는 게 좋을 것 같습니다.
게다가 결측값 처리에 대한 고민도 필요할 것 같구요.
3000개 다 넣어서 좋은 결과가 나온다고 한들...
overfitting 문제가 있을 것이며,
그 변수들이 직접적인 연관성이 있는지 아니면, 아니면 우연한 결과를 만들어낸 것인지 구별하기 어려울 것 같습니다.