안녕하세요?
지난번 질문했을때 많은 도움을 주셔서 문건웅 교수님께서 만드신 자료 보고 공부하고 R 에서 multiple regression을 시행해 봤습니다.
하는 도중에 어려운 점들이 있어, 여기에 또 도움을 요청하게 되었습니다. ㅜㅜ
1. 신뢰 구간에 관한 질문
먼저 저는 30여개의 설명 변수들에 대해 univariate logistic regression을 통해 p value 가 낮은 10개의 설명변수들을 뽑았습니다.
이 10개의 설명변수들을 이용하여 R에서 multiple logistic regression을 수행했습니다.
>fit=glm(종속변수~설명변수1+설명변수2+설명변수3+설명변수4+....+ 설명변수10, data=logistic_data, family = binomial)
자료, 질문과 답변을 찾아보면 오즈비와 오즈비의 95% 신뢰구간이 어떤값을 포함하는지의 여부로 유의한 설명변수인지 아닌지를 판단하는 듯이 보입니다. 제가 봤던 자료들을 복사해서 가져와 봤습니다. (아래 답변 내용 중 빨간색으로 밑줄친 부분을 보시면 됩니다.)
Q1-1) 말씀드렸던 바와같이 답변 내용들을 보면 오즈비의 신뢰구간에 따라 유의한 설명변수인지 아닌지를 판단하는 것 처럼 보이는데요. 아래의 글들에서 어떤 경우에는 오즈비가 1을 포함할때, 어떤 경우에는 오즈비가 0을 지날때 설명변수가 유의하지 않다고 되어있습니다. 그래서 0 또는1이라는 기준값이 데이터에 따라 달라지는 것인가? 하는 생각이 들었습니다. 오즈비가 어떤 값을 포함하는지에 따라 설명변수의 유의성을 말하는 것이 어떤 기준에 따라 정해지는 것인지 알고 싶습니다.
- http://web-r.org/qna/16319#comment_16394 의 답변중 스튜던트 님의 첫번째 답변 "AT_PN 의 회귀계수(-1.3352)와 표준오차(0.7450) 이 맞게 구해졌다는 가정하에, 오즈비의 95% 신뢰구간을 구해보면 exp(-1.3352-1.96*0.7450), exp(-1.3352+1.96*0.7450) -> (0.06,1.13) 으로 나옵니다. 오즈비가 1을 포함하므로 유의한 설명변수가 아니라며, 이는 p-value가 0.05보다 큰 것과 일치 합니다. " |
- http://rstudio-pubs-static.s3.amazonaws.com/190997_40fa09db8e344b19b14a687ea5de914b.html (문건웅 교수님 작성하신것) 의 회귀진단 : 회귀모형이 과연 적절한가? part 의 마지막 부분 "이 결과에서 문맹률(Illiteracy)이 1% 변하면 인구 10만 명당 살인사건 발생률이 4.14(2.38에서 5.90) 변화한다고 95%의 확신을 가지고 이야기 할 수 있으며, 1 년중 기온이 0도 이하로 떨어지는 Frost의 경우 95% 신뢰구간이 0을 지나므로 다른 변수들이 일정하다면 온도의 변화는 살인사건의 발생률과 관계가 없다고 결론내릴 수 있다. 하지만 이러한 통계적 추론에 대해 확신을 가지려면 데이터가 OLS 회귀의 가정을 만족해야만 한다. R에서는 회귀모형의 적절성을 평가하는 여러가지 도구들을 제공하고 있다." |
Q1-2) 만약에 Q1-1의 답변에서 모든 데이터에 대해 신뢰 구간이 0또는 1을 지날때 설명변수가 유의하지 않다고 말하는 것이 옳다면,
a) multiple regression 했을때 특정 설명 변수의 p-value가 낮고, 그 변수의 신뢰구간이 0또는 1을 지나지 않으면 "유의한 설명변수"다 라고 말할 수 있는지,
b) 거꾸로, multiple regression 했을때 특정 설명 변수의 p-value가 낮지만, 그 변수의 신뢰구간이 0또는 1을 지나면 "유의하지 않은 설명변수"다 라고 말할 수 있는 것인가요?
c) 제 경우 데이터를 가지고 multiple regression을 하고 특정 설명변수의 OR의 신뢰구간을 구해보면 하한값과 상한값이 거의 무한대에 가깝습니다. 이것은 0과 1에 전혀 근접하지도 않는 것이니까 이것을 유의한 설명변수라고 판단할 수 있을까요?
Q1-3) Q-1 에서 제가 참고해왔던 답변들에서 저렇게 신뢰구간을 이용해서 설명변수의 유의성을 판단하는 시점이 언제인지 궁금합니다.
a) univariate logistic regression으로 p-value가 낮은 몇개의 설명변수를 뽑을 때, p-value가 낮더라도 그것의 OR의 신뢰구간을 구해서 특정 기준에 만족하지 못하면 제외시키는 과정에 사용해도 되는 것인가요?
b) 그것과는 별개로 univariate logistic regression으로 p-value가 낮은 몇개의 설명변수를 뽑아 multiple regression을 하면 새롭게 p-value를 구할 수 있습니다. 그 multiple regression결과에서 유의하다고 생각되는 설명변수를 찾기 위해 p-value가 낮은것 OR에 대한 신뢰구간의 기준에 만족하는 것을 고르는 것인가요?
c) 또다른 가능성으로, step 등의 함수로 multiple logistic regression 결과에서 AIC 를 기준으로 몇가지의 설명변수들을 뽑고, 그것들에 대해 신뢰구간을 구한 뒤 유의한것을 다시 추려도 되는 것인지 궁금합니다.
쓰다보니 질문이 너무 많습니다... 저도 열심히 공부해서 여기 선생님들처럼 다른사람들에게 도움을 주는 사람이 되고 싶습니다.. ㅜㅜ
감사합니다...
Comment 2
-
cardiomoon
2018.05.05 11:42
-
짱이야
2018.05.07 16:13
감사합니다. 교수님.
정말 큰 도움이 되었습니다.
다시한번 감사드립니다. ㅜㅜ
No. | Subject | Author | Date |
---|---|---|---|
474 | 정회원 서버 접속이 안되네요 [1] | iamswchoi | 2018.06.09 |
473 | shiny 한글 문제 문의드립니다. [3] | suny | 2018.06.07 |
472 | 단독망에서 패키지 실행 질문있습니다. [1] | 김지은22 | 2018.06.05 |
471 | Hodges-Lehman estimator [1] | 김밥친구 | 2018.06.04 |
470 | 교수님 안녕하세요 질문이 있습니다 [1] | 세발낙지 | 2018.06.03 |
469 | 범주형변수와 비정규분포 연속형 변수 간 관계를 볼때 이변량 상관관계 분석이 가능한지요? [1] | 아라리 | 2018.05.30 |
468 | 안녕하세요 공부하던 중 질문드립니다. [1] | Ikarus86 | 2018.05.27 |
467 | 선생님 책으로 공부중인데..질문있습니다. [1] | jsus | 2018.05.26 |
466 | 인류 역사상 최고의 천재였다는 남자.jpg | 소꿈노리 | 2018.05.25 |
465 | 설명 변수 고르기에 대해서.. [2] | 짱이야 | 2018.05.25 |
464 | WebR관련 문의드립니다. [1] | neurojang | 2018.05.17 |
463 | nomogram [5] | 횽횽 | 2018.05.16 |
462 | 불충분한 데이터의 생존분석에 관하여 질문드립니다. [2] | fermion503 | 2018.05.14 |
461 | 교수님 안녕하세요 서버 구축관련하여 질문드립니다. [2] | 우루루루 | 2018.05.11 |
» | 다중회귀 관련 여러가지 질문들이 있습니다. [2] | 짱이야 | 2018.05.04 |
459 | 다중회귀 관련 질문이 있습니다~~ [2] | 짱이야 | 2018.05.03 |
458 | 생존분석 결과가 다운되지 않습니다. [2] | 아라리 | 2018.05.02 |
457 | cox 와 kaplan 분석 시 결과해석 문의드립니다. [2] | 또니 | 2018.04.30 |
456 | 생존분석 p 값 [2] | alse | 2018.04.26 |
455 | 문의드립니다 [2] | 알로하 | 2018.04.26 |
p값과 신뢰구간은 같습니다. 단 질문하신 분이 혼란이 있으셨던 것은 logistic regression과 linear regression을 혼동하시는데 있는 것 같습니다.
1. linear regression 은 베타값의 신뢰구간이 0을 포함하면 p값이 0.05가 넘게 됩니다.
2. logistic regression 의 경우 오즈비의 신뢰구간이 1을 포함하면 p값이 0.05가 넘게 됩니다.
위의 예들에서 스튜던트 님의 첫번째 답변은 logistic regression위 경우이고 제가 쓴 글 states데이터의 경우는 linear regression 입니다.
Q1-2) 에 대한 답변
a) multiple regression 했을때 특정 설명 변수의 p-value가 낮으면 그 변수의 신뢰구간이 0또는 1을 지나지 않습니다. -> multiple regression 했을때 특정 설명 변수의 p-value가 낮으면 그 변수에 대한 beta coefficient의 신뢰구간이 0을 지나지 않습니다.
b) multiple regression 했을때 특정 설명 변수의 p-value가 낮지만, 그 변수의 신뢰구간이 0또는 1을 지나면 "유의하지 않은 설명변수"다 라고 말할 수 있는 것인가요?
; p-value가 낮으면 그 변수의 베타 coefficient의 신뢰구간이 0을 지나지 않습니다.
c) 제 경우 데이터를 가지고 multiple regression을 하고 특정 설명변수의 OR의 신뢰구간을 구해보면 하한값과 상한값이 거의 무한대에 가깝습니다. 이것은 0과 1에 전혀 근접하지도 않는 것이니까 이것을 유의한 설명변수라고 판단할 수 있을까요? -> multiple logistic regression이겠죠. 유의합니다.
Q1-3) Q-1 에서 제가 참고해왔던 답변들에서 저렇게 신뢰구간을 이용해서 설명변수의 유의성을 판단하는 시점이 언제인지 궁금합니다.
a) univariate logistic regression으로 p-value가 낮은 몇개의 설명변수를 뽑을 때, p-value가 낮더라도 그것의 OR의 신뢰구간을 구해서 특정 기준에 만족하지 못하면 제외시키는 과정에 사용해도 되는 것인가요? -> 그런 경우는 있을 수 없습니다.
b) 그것과는 별개로 univariate logistic regression으로 p-value가 낮은 몇개의 설명변수를 뽑아 multiple regression을 하면 새롭게 p-value를 구할 수 있습니다. 그 multiple regression결과에서 유의하다고 생각되는 설명변수를 찾기 위해 p-value가 낮은것 OR에 대한 신뢰구간의 기준에 만족하는 것을 고르는 것인가요?
-> p값과 OR의 신뢰구간은 같습니다.
c) 또다른 가능성으로, step 등의 함수로 multiple logistic regression 결과에서 AIC 를 기준으로 몇가지의 설명변수들을 뽑고, 그것들에 대해 신뢰구간을 구한 뒤 유의한것을 다시 추려도 되는 것인지 궁금합니다. -> 다중 로지스틱 회귀분석에서 최종 모형에 어떤 변수를 포함시키느냐 하는 것은 연구자의 마음입니다.
참고로 p값과 신뢰구간의 개념을 아시기 위해 "세상에서 가장 쉬운 통계학 입문" 책을 사셔서 한번 읽어보시기 바랍니다.