R 단일 모집단의 모비율에 대한 신뢰구간 추정과 검정(population proportion test) : prop.test()
R 분석과 프로그래밍/R 통계분석 2015. 10. 3. 23:41통계적 검정 (statistical testing) 은 모집단의 모수 또는 분포 형태에 대한 추정에 대해 그것이 옳은지 그른지를 임의로 추출한 표본으로부터 통계량을 측정하여 판단하는 통계적 절차를 말합니다.
단일 모집단에 대한 통계적 추론 (추정과 검정) 과 관련하여
[표본이 크고 정규성 충족 시]
: t.test()
: chi-square test
- 단일 모집단의 모비율에 대한 신뢰구간 추정과 검정
: prop.test()
[정규성 미충족 시]
: wilcox.test()
[정규성 여부 검정]
: shapiro.test(), qqnorm(), qqline()
을 차례로 살펴보겠습니다.
지난번 포스팅의 '단일 모집단의 모평균, 모분산에 대한 신뢰구간 추정과 검정'에 이어서, 이번 포스팅에서는 정규분포 형태를 띠는 단일 모집단에서 충분히 큰 규모로 임의로 표본을 추출하여 표본비율(one sample proportion)을 분석하여 미지의 모수인 모비율(one population proportion)에 대한 95% 신뢰계수의 신뢰구간 추정과 검정을 R의 prop.test() 함수를 사용해보겠습니다.
이번 포스팅은 선거철 특정 정당이나 후보에 대한 "지지율"(지지 여부 yes, no)이라든지, 특정 제품의 "불량률"(양품 여부 yes, no)과 같은 모집단 내 개체들의 특정 속성에 대한 구성 비율에 추정과 검정에 사용합니다.
[ 단일 모집단의 모비율에 대한 검정통계량 및 대립가설 형태별 P-value ]
확률 변수 X가 모수 n (시행 횟수), p (성공 확률) 인 이항분포 (binomial distribution)을 따를 때 모비율 p의 추정량으로는 표본비율 p^ = X / n 을 사용함.
표본비율 P^ 은 중심극한의 정리에 의거하여 n이 충분히 크면 평균이 p, 분산이 p(1-p)/n 인 정규분포로 근사하게 됨.
따라서, 모비율 p에 대한 검정을 위해 사용하는 통계량 및 대립가설 형태별 P-value는 다음과 같음
|
문제) 100원짜리 동전 던지기를 1000번 했는데 앞면이 485번 나왔다. 그렇다면 이 동전은 앞면과 뒷면이 균일한 동전이라고 말할 수 있는지를 유의수준 5%로 검정하고, 신뢰계수 95%의 신뢰구간을 구하여라.
> ##------------------------------------------------ > ## one population proportion test : prop.test() > ##------------------------------------------------ > > prop.test(x = 485, # number of success + n = 1000, # sample size + p=0.50, # proportion of success + + alternative = c("two.sided"), # two-sided test + # alternative = c("greater"), # right-sided test + # alternative = c("less"),# left-sided test + + conf.level = 0.95) # confidence level 1-sample proportions test with continuity correction data: 485 out of 1000, null probability 0.5 X-squared = 0.841, df = 1, p-value = 0.3591 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.4536437 0.5164729 sample estimates: p 0.485 > > > prop.test_confi_95 <- prop.test(x = 485, n = 1000, p=0.50, alternative = c("two.sided"), conf.level = 0.95) > > names(prop.test_confi_95) # statistics [1] "statistic" "parameter" "p.value" "estimate" "null.value" "conf.int" "alternative" [8] "method" "data.name" > > prop.test_confi_95$conf.int # confidence interval at 95% confidence level [1] 0.4536437 0.5164729 attr(,"conf.level") [1] 0.95 > > prop.test_confi_95$conf.int[1] # lower confidence limit [1] 0.4536437 > prop.test_confi_95$conf.int[2] # upper confidence limit [1] 0.5164729
|
P-value가 0.3591 이므로 유의수준(significance level) 5%에서 귀무가설을 기각하지 못하고 채택하게 됩니다. 즉, 동전은 앞, 뒤가 균일하다고 말할 수 있겠습니다.
그리고 신뢰계수 95%의 신뢰구간은 0.453 ~ 0.516 가 되겠습니다. 즉, 1000번 동전던지기를 했는데, 453번 보다 앞면이 덜 나오거나, 혹은 516번 보다 앞면이 더 나오면 동전의 앞, 뒷가 균일하지 않고, 누군가가 사기의 목적을 가지고 조작을 했다고 유의수준 5% 기준 하에 의심해 볼 수 있겠습니다.
prop.test() 함수 말고 분석가가 직접 위의 표본비율 p^을 표준화한 통계량 Z를 직접 사용자 정의함수로 짜서 검정과 95% 신뢰구간 추정을 해도 동일한 결과가 나올겁니다.
많은 도움 되었기를 바랍니다.
이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 눌러주세요. ^^
'R 분석과 프로그래밍 > R 통계분석' 카테고리의 다른 글
R 단일 모집단 분포의 정규성 검정 : shapiro.test(), qqnorm(), qqline() (0) | 2015.10.09 |
---|---|
R 단일 모집단 중심에 대한 비모수 검정 : wilcox.test() (0) | 2015.10.04 |
R 단일 모집단의 모분산(population variance)에 대한 신뢰구간 추정과 검정 : chisq test (3) | 2015.10.03 |
R 단일 모집단의 모평균에 대한 신뢰구간 추정(confidence interval estimation)과 검정(test) : t.test() (13) | 2015.09.30 |
R 신뢰구간(confidence interval), 신뢰계수(confidence coefficient), 유의수준(significance level) (0) | 2015.09.30 |