안녕하세요. 생존분석 관련하여 석사 논문을 작성하고 있는 석사 3기 대학원생입니다.
저는 6.25전쟁에 참전한 미군들의 데이터를 분석해서 전쟁 경과에 따른 미군들의 생존 분석을 해보려고 하고 있습니다.
생존분석을 위해 데이터를 받았고, 약 3만여명의 미군 사망자 데이터를 받았습니다.
(데이터에 포함된 인원들 모두 사망한 인원이며, 생존자는 데이터에 포함되지 않습니다.)
따라서 생존분석 곡선을 그리면 끝지점에서는 생존률이 0이 됩니다.
분석하는 과정에서 제가 직면한 문제점은 다음과 같습니다.
=> 미군들의 사망일(전사일)은 데이터에 기록이 되어 있지만, 미군들이 언제 한국에 전개되어 전쟁에 참전을 했는지에 대한 데이터가 없습니다.
=> 따라서 미군들이 실제 전투에 참전한 생존기간을 알 수 없습니다.
아래는 R 프로그램을 이용해 데이터에 관련된 정보를 나타낸 것입니다.
'data.frame': 36558 obs. of 57 variables:
$ Service_No : Factor w/ 36574 levels "005046","00645A",..: 6512 29106 26247 9601 22422 22288 2162 26478 21427 20293 ...
$ C : Factor w/ 5 levels "","G","R","V",..: 4 3 3 4 3 3 4 3 3 3 ...
$ PTP : Factor w/ 3 levels "K","L","S": 2 1 1 2 1 1 2 1 1 1 ...
$ Serve_Type : Factor w/ 3 levels "ACTIVE - GUARD/RESERVE",..: 1 2 2 1 2 2 1 2 2 2 ...
$ Member_Name : Factor w/ 36321 levels "AARON GEORGE",..: 1 2 3 4 5 6 7 8 9 10 ...
$ Service_Code : Factor w/ 4 levels "A","F","M","N": 2 1 1 1 1 1 3 1 1 1 ...
$ Service_Name : Factor w/ 4 levels "AIR FORCE","ARMY",..: 1 2 2 2 2 2 3 2 2 2 ...
$ Rank : Factor w/ 50 levels "1LT","1STLT",..: 12 42 37 3 15 37 45 42 15 37 ...
$ Pay_Grade : Factor w/ 19 levels "E01","E02","E03",..: 11 2 3 9 4 3 5 2 4 3 ...
$ Occupation_Code : Factor w/ 638 levels ""," ","00001",..: 2 20 432 508 266 421 2 403 421 421 ...
$ Occupation_Name : Factor w/ 462 levels "","AAA AUTOMATIC WEAPONS CHIEF",..: 1 204 233 245 265 268 1 34 268 268 ...
$ Birth_Date : int 19170716 19270000 19320000 19290000 19320000 19290000 19321020 19300000 19290000 19300000 ...
$ Gender : Factor w/ 2 levels "F","M": 2 2 2 2 2 2 2 2 2 2 ...
$ Home_City : Factor w/ 2806 levels "","ABBEVILLE",..: 1747 2546 2546 2546 2546 2546 288 2546 2546 2546 ...
$ Home_Country : Factor w/ 1704 levels "","ABBEVILLE",..: 1078 1111 144 339 451 1067 943 1625 1438 1348 ...
$ Country_Code : Factor w/ 7 levels "CA","DA","EI",..: 7 7 7 7 7 7 7 7 7 7 ...
$ State_Code : Factor w/ 58 levels "","AK","AL","AR",..: 39 14 14 30 33 33 48 27 29 19 ...
$ State_Name : Factor w/ 58 levels "","ALABAMA","ALASKA",..: 37 14 14 29 39 39 48 27 30 18 ...
$ Marital : Factor w/ 6 levels "ANNULLED","DIVORCED",..: 3 5 5 5 5 5 5 5 5 5 ...
$ Religion_Name : Factor w/ 2 levels "","NO RELIGIOUS PREFERENCE": 1 1 1 1 1 1 1 1 1 1 ...
$ Religion_Code : Factor w/ 2 levels "","NO": 1 1 1 1 1 1 1 1 1 1 ...
$ Race : Factor w/ 6 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 6 6 6 6 6 6 6 6 4 6 ...
$ Ethnic : Factor w/ 6 levels "CHINESE","HISPANIC OR LATINO",..: 5 5 5 5 5 5 5 5 5 5 ...
$ Race_OMB : Factor w/ 8 levels "AMERICAN INDIAN/ALASKA NATIVE",..: 8 8 8 8 8 8 8 8 3 8 ...
$ Ethnic_Group : Factor w/ 4 levels "ASIAN","HISPANIC",..: 4 4 4 4 4 4 4 4 4 4 ...
$ Casualty_Circumstance : Factor w/ 6 levels "","AIRCRAFT ENGINE FAILURE RESULTING IN A CRASH",..: 1 1 1 1 1 1 1 1 1 1 ...
$ Deploy_City : Factor w/ 3 levels "","IOKOTA AIR FORCE BASE",..: 1 1 1 1 1 1 1 1 1 1 ...
$ Deploy_State : Factor w/ 2 levels "","FR": 1 1 1 1 1 1 1 1 1 1 ...
$ Deploy_Country : Factor w/ 8 levels "3J","3U","3Y",..: 6 7 7 5 7 5 6 5 5 7 ...
$ Deploy_Religion : Factor w/ 2 levels "ASIA","OVER WATER": 1 1 1 1 1 1 1 1 1 1 ...
$ Deploy_Country : Factor w/ 8 levels "DEMOCRATIC PEOPLE IS REPUBLIC OF KOREA",..: 3 4 4 1 4 1 3 1 1 4 ...
$ Unit_Name : Factor w/ 1880 levels ""," 5 CAV","1 4.5 ROCKET BTRY 1 4.5 ROCKET BN F",..: 606 223 382 274 77 382 1720 84 589 288 ...
$ Duty_Code : Factor w/ 3 levels "C","Y","Z": 3 3 3 3 3 3 3 3 3 3 ...
$ Process_Date : int 20010402 19990101 19990101 19990101 19990101 19990101 20020805 19990101 19990101 19990101 ...
$ Death_Date : Date, format: "1951-04-12" "1950-07-27" "1951-03-16" "1953-01-22" ...
$ Death_Year : int 1951 1950 1951 1953 1953 1951 1952 1950 1950 1950 ...
$ War_Code : Factor w/ 1 level "K": 1 1 1 1 1 1 1 1 1 1 ...
$ Incident_Type_Code : Factor w/ 2 levels "","C": 2 2 2 2 2 2 2 2 2 2 ...
$ Incident_Name : Factor w/ 3 levels "","KOREAN WAR",..: 2 2 2 2 2 2 2 2 2 2 ...
$ Location_Name : Factor w/ 3 levels "","KOREA","SOUTHEAST ASIA": 2 2 2 2 2 2 2 2 2 2 ...
$ Closure_Date : int 20010402 19500727 19510316 19530122 19530529 19510606 19521006 19501129 19501112 19500720 ...
$ Aircraft_Type : logi NA NA NA NA NA NA ...
$ Hostile_Indicator : Factor w/ 2 levels "H","NH": 1 1 1 1 1 1 1 1 1 1 ...
$ Casualty_Type : Factor w/ 1 level "DECEASED": 1 1 1 1 1 1 1 1 1 1 ...
$ Casualty_Category : Factor w/ 6 levels "ACCIDENT","DECLARED DEAD",..: 2 5 5 5 5 5 5 5 5 5 ...
$ Casualty_Reason : Factor w/ 5 levels "","AIRCRAFT CRASH -- CREW (MC)",..: 1 1 1 1 1 1 1 1 1 1 ...
$ Casualty_Name : logi NA NA NA NA NA NA ...
$ Body_Remained : Factor w/ 2 levels "N","Y": 2 2 2 2 2 2 2 2 2 2 ...
$ Casualty_Closure_Name : Factor w/ 7 levels "BURIED - CIVILIAN CEMETERY",..: 7 3 3 3 3 3 3 3 3 3 ...
$ Wall : Factor w/ 3 levels "","22E 111","62E 018": 1 1 1 1 1 1 1 1 1 1 ...
$ Casualty_Category_Name : Factor w/ 5 levels "","CAPTURED",..: 4 1 1 1 1 1 1 1 1 1 ...
$ Incident_Casualty_Category_Date: int 19510412 NA NA NA NA NA NA NA NA NA ...
$ Incident_Casualty_Ct_ShortName : Factor w/ 5 levels "","MIA","MSG",..: 2 1 1 1 1 1 1 1 1 1 ...
$ Incident_Hostile : Factor w/ 3 levels "","H","NH": 2 1 1 1 1 1 1 1 1 1 ...
$ Incident_Aircraft_Type : logi NA NA NA NA NA NA ...
$ Survival_Length :Class 'difftime' atomic [1:36558] 291 32 264 942 1069 ...
.. ..- attr(*, "units")= chr "days"
$ Rank_Type : chr "Officer" "Enlist" "Enlist" "Officer" ...
저는 전쟁 개시일(1950.6.25)부터 사망일까지의 기간을 생존일로 처리하여 분석을 실시하였는데, 이렇게 되면 미군들의 경우
전쟁에 참전하지 않고 미국 본토에 있는 기간도 생존일에 포함되어 버리게 됩니다.
따라서
전쟁이라는 위협에 노출된 군인들의 생존율에 대한 분석 , 의 결과로 사용하기에는 문제점이 있을 것 같다는 생각이 들었습니다.
(군대 집단 내에서의 개체 사망에 따른 생존률이라고 본다면, 적용할 수 있을 것 같기도 합니다만..)
결과적으로 제가 드리고 싶은 질문은
1. 전쟁 참전일이 언제인지 모르는 군인들을 모두 1950. 6. 25일 부터 생존으로 처리하는 것은 좌측 중도절단에 해당하는 사례라고 볼 수 있는지
(좌측 중도절단은 사건의 시작이 언제인지 모르는 경우에 대해 사용하는 것으로 알고 있습니다. 위 경우도 전쟁이 발발했지만 언제 전쟁에 참전했는지 명쾌하게 알 수 없으므로
좌측 중도절단에 해당하는지 궁금합니다.) - 제일 중요!!
2. 만약 전쟁 시작부터 1년 기간 내에서의 사망률을 본다면, 좌측 중도절단과 우측 중도절단이 함께 된 2중 중도절단이 되는지 궁금합니다.
3. 베트남 전쟁에 대한 데이터로 있는데 (동일 Attributes) 비교 분석하려고 하니 6.25전쟁은 3년, 베트남 전쟁은 10여년에 걸쳐 전쟁을 치뤘습니다. 기간이 다른 전쟁에 대해 비교하는 것이
타당한지 궁금합니다.(만약 정규화 하는 방법이 있다면 큰 도움이 될 것 같습니다.)
중도절단과 트런케이션 관련하여 책을 읽고, 해외 사이트 등에 문의하여도 이에 대해 명쾌하게 답변을 얻을 수 없어 이곳에 질문을 남겨봅니다.
제 이메일은 Fermion503@gmail.com 이며, 이메일 혹은 이곳에 답변해주시면 큰 도움이 될 것 같습니다!
Comment 2
-
cardiomoon
2018.05.16 08:51
-
fermion503
2018.05.16 15:00
감사합니다! ㅠㅠ!
No. | Subject | Author | Date |
---|---|---|---|
474 | 정회원 서버 접속이 안되네요 [1] | iamswchoi | 2018.06.09 |
473 | shiny 한글 문제 문의드립니다. [3] | suny | 2018.06.07 |
472 | 단독망에서 패키지 실행 질문있습니다. [1] | 김지은22 | 2018.06.05 |
471 | Hodges-Lehman estimator [1] | 김밥친구 | 2018.06.04 |
470 | 교수님 안녕하세요 질문이 있습니다 [1] | 세발낙지 | 2018.06.03 |
469 | 범주형변수와 비정규분포 연속형 변수 간 관계를 볼때 이변량 상관관계 분석이 가능한지요? [1] | 아라리 | 2018.05.30 |
468 | 안녕하세요 공부하던 중 질문드립니다. [1] | Ikarus86 | 2018.05.27 |
467 | 선생님 책으로 공부중인데..질문있습니다. [1] | jsus | 2018.05.26 |
466 | 인류 역사상 최고의 천재였다는 남자.jpg | 소꿈노리 | 2018.05.25 |
465 | 설명 변수 고르기에 대해서.. [2] | 짱이야 | 2018.05.25 |
464 | WebR관련 문의드립니다. [1] | neurojang | 2018.05.17 |
463 | nomogram [5] | 횽횽 | 2018.05.16 |
» | 불충분한 데이터의 생존분석에 관하여 질문드립니다. [2] | fermion503 | 2018.05.14 |
461 | 교수님 안녕하세요 서버 구축관련하여 질문드립니다. [2] | 우루루루 | 2018.05.11 |
460 | 다중회귀 관련 여러가지 질문들이 있습니다. [2] | 짱이야 | 2018.05.04 |
459 | 다중회귀 관련 질문이 있습니다~~ [2] | 짱이야 | 2018.05.03 |
458 | 생존분석 결과가 다운되지 않습니다. [2] | 아라리 | 2018.05.02 |
457 | cox 와 kaplan 분석 시 결과해석 문의드립니다. [2] | 또니 | 2018.04.30 |
456 | 생존분석 p 값 [2] | alse | 2018.04.26 |
455 | 문의드립니다 [2] | 알로하 | 2018.04.26 |
질문하신 내용은 저도 잘 모르겠습니다. 여력이 되는대로 찾아보겠습니다. ㅠ.ㅜ