2X2 table에서 categorical variable을 비교할 때 표시된 P 값은
N > 20, 기대빈도 >= 5를 만족하지 못하면 Fisher's exact test를, 만족하면 카이제곱을 이용하는 것으로 알고 있습니다.
웹에서 하는 R 통계에서 categorical variable의 P값은 어떤 기준으로 계산되는지요?
제가 SPSS로 돌려봤더니 연속수정이라고 써 있는 값으로 계산이 되어 나오는 것 같습니다.
ICS_dose * AE_90 교차표
AE_90
0 1 전체
ICS_dose 1 빈도 4 6 10
기대빈도 7.0 3.0 10.0
ICS_dose 중 % 40.0% 60.0% 100.0%
2 빈도 35 11 46
기대빈도 32.0 14.0 46.0
ICS_dose 중 % 76.1% 23.9% 100.0%
전체 빈도 39 17 56
기대빈도 39.0 17.0 56.0
ICS_dose 중 % 69.6% 30.4% 100.0%
카이제곱 검정
값 자유도 점근 유의확률 (양측검정) 정확한 유의확률 (양측검정) 정확한 유의확률 (단측검정)
Pearson 카이제곱 5.060a 1 .024
연속수정b 3.497 1 .061
우도비 4.685 1 .030
Fisher의 정확한 검정 .052 .034
선형 대 선형결합 4.969 1 .026
유효 케이스 수 56
a 1 셀 (25.0%)은(는) 5보다 작은 기대 빈도를 가지는 셀입니다. 최소 기대빈도는 3.04입니다.
b 2x2 표에 대해서만 계산됨
1. 연속수정이라는 값은 언제 사용하는 것인지요?
이 값이 N수나 기대빈도에 상관이이 가장 보수적인지요?
2. 이 값을 논문에 그대로 써도 될지요?
그렇다면 통계 분석에 어떻게 기술해야 할지요?
Comment 2
-
cardiomoon
2016.05.02 16:51
-
천감기
2016.05.20 22:53
카이제곱은 일단 피어슨 카이제곱이 기본이며, 이것은 대표본을 전제로 한 것입니다.
대신 표본수가 작아지면, 오차가 발생하기 때문에 이것을 교정한 것이 연속성 수정 카이제곱입니다.
연속성 수정은 2X2 table에서만 가능합니다.
몇 조건에서는 엄격하게 Fisher를 사용하도록 권하지만,
그외에는 피어슨 카이제곱과 연속성 수정 카이제곱 둘다 사용할 수 있고, 연속성 수정 카이제곱이
좀더 보수적이면, Fisher의 값에 가깝게 나옵니다.
Web-R에서
table 메뉴에서는 기본적으로 연속성 수정된 값이 사용되고,필요한 경우에는 FIsher 를 자동으로 선택하도록 하고 있습니다.
비교 통계에서는 선택할 수도 있도록 되어있고,
t-test 에서는(이건 교육적 목적으로 만든 메뉴임) 위의 모든 값을 한꺼번에 제시하여 비교해 보고 원리를 공부할 수 있도록 되어 있습니다.
1. R에서는 기본적으로 chisq.test를 할때 Yates correction을 해줍니다. 다음 페이지를 참조하세요.
https://en.wikipedia.org/wiki/Yates%27s_correction_for_continuity
2. 그대로 쓰시면 됩니다. chi-square test with Yates' continuity correction이라고도 하셔도 되고 Yates' chi-square test라고 하셔도 됩니다. 또는 그냥chi-square test로 하셔도 큰 상관은 없을듯 합니다.