전에 외부에서 하는 문교수님 워크샵을 듣고, web-r을 사용하면서 항상 감사하게 생각하면서
도움을 받고 있습니다. 감사합니다.
최근에 논문을 하나 쓰고 있는데 힘든 문제가 있어 도움을 받고자 글을 남깁니다.
제가 하고자 하는 분석은 약물중독환자에서 사망 및 중환자실 입원 등에 대한 예후인자를 분석하고 합니다.
이미 많은 연구가 진행된 분야이지만 logistic regression과 Neural network를 이용한 분석을 비교하여 논문을 쓰고자 합니다.
약 천건 정도의 환자자료를 모았습니다. 첨부된 엑셀파일은 약물의 종류를 ICD-10 중독분류에 따라 분류한 표와 사망여부, ICU 재원일수를 표시한 자료입니다.
제가 분석을 시작하고자 하는데 가장 난관이 되는 문제가 있어 질문드리고자 합니다.
약물중독의 예후인자는 나이, 성별, 질환 등 여러가지가 있겠지만 약물의 종류와 용량도 크게 좌우합니다.
용량은 정확히 계량이 불가능한 경우가 많아 bias가 너무 심할 것 같습니다.
한 환자가 한가지 성분의 약을 먹는 것도 아니고 여러가지 섞어서 먹는 경우도 있어서 분석이 더 힘듭니다.
그래서 여러 방법 중 약물종류를 ICD-10 질병분류에 기준해서 중독약물별로 분류하기로 하였습니다.
첨부하여 드린 엑셀표의 샘플자료에서 toxcatg1 toxcatg2 toxcatg3 toxcatg4 toxcatg5가 먹은 약물의 ICD 카테고리 분류입니다.
문제는 여기서 약물카테고리 별로 분류는 했으나 이걸 독립변수로 넣을 방법이 막막하여
약물 종별로 사망 또는 중환자실 입원일수에 대한 risk score를 환자별로 계산하고 이를 독립변수의 하나로 사용해서 분석할 예정입니다.
Propensity score matching처럼 될 수 있을 거라 생각했지만 propensity는 결과를 보여주지 않고 매칭만 하기 때문에 저런 risk score를 계산할 수 있을지 해결책을 알아보려고 열심히 찾아 보았으나 찾을 수가 없어서 염치불구하고 질문드리게 되었습니다. 제1중독약물이 각각 다르고 먹은 사람마다 주요약물이 달라서 여러 종의 약물을 동시에 먹은 경우 복합적인 hazards를 모두 고려하여야 하는데 해결할 방법이 있을지 질문드립니다.
CRAN에 riskRegression이라는 패키지가 있던데 이걸 사용하면 가능할까요?
어떠한 의견이든 저에겐 큰 도움이 될 것 같습니다.
감사합니다.
Comment 1
-
아빠가들려주는통계김지형
2019.02.27 18:28
No. | Subject | Author | Date |
---|---|---|---|
594 | diagnostic accuracy [1] | 쑤니 | 2019.03.07 |
593 | 생존분석 질문입니다. [2] | 박소이 | 2019.03.06 |
592 | 표만들기 오류 [1] | 김밥친구 | 2019.03.03 |
591 | 변수선택 관련 질문 드립니다. [1] | chamchi | 2019.02.28 |
590 | forest plot 그리는 법 문의 드립니다. [1] | 강민정 | 2019.02.24 |
589 | matchIt 함수 사용시 질문 있습니다. [1] | YJK | 2019.02.23 |
588 | ORplot 관련하여 질문드립니다. | 매직하마 | 2019.02.23 |
587 | mytable 함수 에러 [3] | iddrlee | 2019.02.21 |
586 | 범주형 변수 생존 분석시 log rank와 cox univariate 결과 해석에 대해 질문 드립니다. [1] | 소외 | 2019.02.20 |
585 | 회귀분석에서의 범주형변수 [4] | 에곤쉴레 | 2019.02.20 |
584 | Survdiff로 log-rank test 시 P-value 소수점 [3] | begabung | 2019.02.15 |
583 | 정회원 서버 신청 문의입니다. [2] | chl065512 | 2019.02.13 |
582 | mytable 관련 질문드립니다 [3] | 낡은찻잔 | 2019.02.12 |
581 | web-R 기반 분석 후 다운로드 관련 문의점 | kato7 | 2019.02.11 |
580 | stepwise logistic 회귀에서 결측치 문제 질문드립니다. [2] | 매직하마 | 2019.02.10 |
579 | 데이터 업로드에 오류가 반복되어 생깁니다. | kato7 | 2019.02.07 |
578 | table 작성시 오류 | 김날 | 2019.02.07 |
577 | 문의 드립니다. [1] | 김날 | 2019.01.31 |
576 | 표 만들기에서 계속 error 가 납니다. [3] | 세희맘 | 2019.01.30 |
» | Risk scoring??? [1] | 홍성엽 | 2019.01.28 |
질문의 내용은 어떤 패키지를 사용하는가의 문제가 아니라,
변수들을 잘 정리해야 하는 문제입니다.
결국 정리가 되지 않는 변수들에 대해서는 어떤 예측 모형을 사용하더라도, 분석이 안됩니다.
그런 변수들을 무시하든지 혹은 적절한 카테고리로 나누어서(임상적인 의미를 고려하여)
분석에 합당한 방법으로 재 조정해야 합니다.
너무 분류를 크게 나누면 임상적으로 적용할 때 의미가 적어지겠지요.
너무 분류를 세분화하면 막상 그 분류에 속한 자료가 몇 개 없어지고, 그 자료는 분석이 잘 안됩니다.
그러므로 임상적인 의미를 고려해서 분류하는 것도 연구자의 지혜입니다.
risk score를 계산하는 방식은 매우 다양하게 있는데,
예를 로지스틱 회귀분석만으로도 예측 모형을 만들고 risk를 계산할 수 있습니다.
그외 다른 방법도 많이 있고요.
https://blog.naver.com/kjhnav/221359372049