안녕하세요.. 다중 회귀 관련 자료를 찾다가 여기에서 많은 도움을 받았습니다. 감사합니다 ㅜㅜ
다름이 아니라 여기 선생님들께 여쭈어 볼 것이 있습니다. (저는 R method 를 이용합니다. )
Q1. 단순 회귀, 다중 회귀 상관없이 종속변수가 순서 없는 2가지 클래스로 분류되는 범주형 자료일때 아래와 같이 binomial 을 추가하는 것으로 알고 있습니다.
Q1-1) 이때 설명변수에 관해서 질문이 있습니다. 아래의 자료 같은 경우에 보면 성별은 0,1 로 이루어진 범주형 자료인데, 이것에 factor를 취하지 않고 그냥 분석에 이용합니다. 0,1의 두가지 class로 이뤄진 자료같은 경우에는 factor로 변환하지 않아도 상관없는 것인가요?
[출처 : http://web-r.org/qna/16319#comment_16366 의 cardiomoon 님 답변 ]
require(survival)
Loading required package: survival
colon<-na.omit(colon)
result=glm(status~rx+sex+age+obstruct+perfor,family=binomial,data=colon)
summary(result)
Q1-2) 아래의 데이터 구성처럼 종속 변수로 유전자 발현값도 사용해 보려고 합니다.
종속변수 : 0/1 로 구성된 범주형 자료
설명변수-1: 유전자 A의 발현값
설명변수-2: 유전자 B의 발현값
설명변수-3: 성별
glm(status~유전자A발현값+ 유전자B발현값+성별,family=binomial,data=colon) 의 식으로 regression을 진행하는 것이 맞나요?
(종속변수가 범주형 자료이기 때문에 binomial option을 넣었고, 유전자 값들은 연속형 자료이기 때문에 factor로 변환하지 않았습니다. )
Q2. 종속 변수에 영향을 미치는 요인들을 알고 싶을때 분석하는 방법
http://web-r.org/qna/15387#comment_15395 글을 보니까 우선 단변량 분석을 통해서 낮은 p 값을 가지는 종속변수들을 골라내고, 그들중 p value가 낮은 것만을 뽑아서 다변량 분석에 이용하는것 같고, 그 이후에 step 함수를 이용하여 중요한 요인들을 골라내는 것 같습니다.
제가 설명한것처럼 분석을 진행해도 통계적으로 문제가 없는 것인가요?
또, 이 방법에 관련해서 공부를 더 해보고 싶은데요. 웹에서 하는 R 통계 홈페이지에도 이것에 관한 설명이 나와있나요? 단순 검색으로 찾았을때는 나오지 않아서 여기에 여쭤봅니다 ㅜㅜ
정말 정말 감사드립니다.
Comment 2
-
cardiomoon
2018.05.03 12:53
-
짱이야
2018.05.03 13:27
교수님 ! 정말 감사드립니다.
말씀대로 책을 하나 사서 봐야겠어요.
귀한 시간 내주셔서 감사합니다. !!!
No. | Subject | Author | Date |
---|---|---|---|
474 | 정회원 서버 접속이 안되네요 [1] | iamswchoi | 2018.06.09 |
473 | shiny 한글 문제 문의드립니다. [3] | suny | 2018.06.07 |
472 | 단독망에서 패키지 실행 질문있습니다. [1] | 김지은22 | 2018.06.05 |
471 | Hodges-Lehman estimator [1] | 김밥친구 | 2018.06.04 |
470 | 교수님 안녕하세요 질문이 있습니다 [1] | 세발낙지 | 2018.06.03 |
469 | 범주형변수와 비정규분포 연속형 변수 간 관계를 볼때 이변량 상관관계 분석이 가능한지요? [1] | 아라리 | 2018.05.30 |
468 | 안녕하세요 공부하던 중 질문드립니다. [1] | Ikarus86 | 2018.05.27 |
467 | 선생님 책으로 공부중인데..질문있습니다. [1] | jsus | 2018.05.26 |
466 | 인류 역사상 최고의 천재였다는 남자.jpg | 소꿈노리 | 2018.05.25 |
465 | 설명 변수 고르기에 대해서.. [2] | 짱이야 | 2018.05.25 |
464 | WebR관련 문의드립니다. [1] | neurojang | 2018.05.17 |
463 | nomogram [5] | 횽횽 | 2018.05.16 |
462 | 불충분한 데이터의 생존분석에 관하여 질문드립니다. [2] | fermion503 | 2018.05.14 |
461 | 교수님 안녕하세요 서버 구축관련하여 질문드립니다. [2] | 우루루루 | 2018.05.11 |
460 | 다중회귀 관련 여러가지 질문들이 있습니다. [2] | 짱이야 | 2018.05.04 |
» | 다중회귀 관련 질문이 있습니다~~ [2] | 짱이야 | 2018.05.03 |
458 | 생존분석 결과가 다운되지 않습니다. [2] | 아라리 | 2018.05.02 |
457 | cox 와 kaplan 분석 시 결과해석 문의드립니다. [2] | 또니 | 2018.04.30 |
456 | 생존분석 p 값 [2] | alse | 2018.04.26 |
455 | 문의드립니다 [2] | 알로하 | 2018.04.26 |
안녕하세요? 문건웅입니다.
Q1-1. 성별이 0,1로 되어 있는 경우 factor를 취하지 않으면 continuous variable로 처리하고 그 결과는 성별이 1이 증가할 때로 해석하면 됩니다. 결국 factor로 변환한 것과 마찬ㄷ가지입니다.
Q1-2. 로지스틱회귀분석을 하신다면 코드가 맞습니다.
Q2. 다중회귀분석에서 어떤 변수를 최종모형에 포함 시킬 것인가는 p값으로 하는 것이 아니고 연구자 마음입니다. 하지만 보통의 경우 기술하신 것과 같은 방법을 쓰기도 하고 자동화된 step함수를 쓰기도 하고 all subset regression을 하기도 합니다. 제가 쓴 "의학논문작성을 위한 R통계와 그래프"책에도 회귀진단과 모형의 선택이라는 chapter하나로 되어 있습니다. 가까운 도서관에서 빌려보시죠^^