R (3) 두 모집단의 모비율 차이에 대한 추정과 검정 : prop.test()

R 분석과 프로그래밍/R 통계분석

R (3) 두 모집단의 모비율 차이에 대한 추정과 검정 : prop.test()

Rfriend 2015. 10. 18. 21:08

두개의 모집단에 대한 추정과 검정 (two sample tests)에 대해서 정규분포 가정을 만족하는 경우와 그렇지 않은 경우로 나누어서 알아보겠습니다.

정규성 가정을 충족하는 경우

(1) 독립된 두 표본의 평균 차이에 대한 추정과 검정 : t.test()

(indepentent two sample t-test)

(2) 짝을 이룬 표본에 대한 평균 차이에 대한 추정과 검정 : t.test(paired=TRUE)

(paired sample t-test)

(3) 두 모집단의 모비율 차이에 대한 추정과 검정 : prop.test()

(independent two population proportions test)

정규성 가정을 충족하지 못하는 경우, 혹은 분포형태를 모르는 경우

(4) 두 모집단의 중심 차이에 대한 비모수 검정 : wilcox.test()

(non-parametric wilcoxon tests on two indepedent sample)

지난번 포스팅에서는 독립된 두 표본, 짝을 이룬 표본에 대한 평균 차이에 대한 추정과 검정을 했는데요, 이번 포스팅에서는 정규성 가정을 만족하는 분포에서 (3) 두 모집단의 모비율 차이에 대한 추정과 검정(independent two population proportions test), R의 prop.test() 함수에 대해 소개하겠습니다.

두 집단의 모비율에 대한 추정과 검정은 범주형 변수(categorical variable)에 대해 두 집단의 비율의 차이를 비교해보려고 할 때 사용하게 됩니다. 가령, 두 집단 간의 특정 정당 혹은 후보에 대한 지지율의 차이, 흡연자와 비흡연자의 폐암 발병률의 차이, A학교와 B학교 야구부 선수들의 평균 타율의 차이 등과 같이 yes/no, success/failure 로 구분이 되는 범주형 변수(categorical variable)에 대해 집단 간 차이가 있는지를 통계량을 사용해서 P-value 를 가지고 (혹은 채택역, 기각역을 사용해서) 검정을 하게 됩니다.

[ 두 모집단의 모비율 차이에 대한 추정과 검정통계량 ]

R의 prop.test() 함수의 기본적인 사용법은 아래와 같습니다.

[ R prop.test() 함수 사용법 ]

아래 예를 R porp.test() 함수를 사용해서 풀어보도록 하겠습니다.

예제 ) A회사 직장인 500명과 B회사 직장인 600명을 대상으로 조사를 한 결과, A회사 직장인의 흡연율은 33%, B회사 직장인의 흡연율은 41%로 나타났다. 그러면 A회사와 B회사 직장인의 흡연율(proportion of smokers)에는 차이가 있다고 할 수 있는지 유의수준 (significance level) 5% 에서 검정하시오.

귀무가설 Ho : A회사와 B회사의 흡연율은 차이가 없다 (p1 - p2 = 0)

대립가설 H1 : A회사와 B회사의 흡연율은 차이가 있다 (p1 - p2 != 0)

prop.test(x, ...)의 x에는 'number of events'를 집어넣어야 하므로 아래 문제에서는 비율(proportion) 과 관측값수(n)을 곱해서 x <- prop*n 으로 계산을 해서 새로운 벡터 x를 생성해서 prop.test(x,...)에 집어넣었습니다.

> ##----------------------------------------------------------
> ## independent two population proportions test : prop.test()
> ##----------------------------------------------------------
> 
> prop <- c(0.33, 0.41) # proportion of events
> n <- c(500, 600) # number of trials
> x <- prop*n # number of events
> x 
[1] 165 246
> 
> 
> prop.test(x = x, # number of events
+           n = n, # number of trials
+           alternative = c("two.sided"), # alternative = c("two.sided", "less", "greater")
+           conf.level = 0.95) # confidence level (= 1- significance level 'alpha')

	2-sample test for equality of proportions with continuity correction

data:  x out of n
X-squared = 7.1203, df = 1, p-value = 0.007622
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.13881966 -0.02118034
sample estimates:
prop 1 prop 2 
  0.33   0.41

P-value가 0.007622 이므로 유의수준(significance level) 5%에서 귀무가설을 기각하고 대립가설을 채택하여 A회사와 B회사의 흡연율에 차이가 있다고 할 수 있겠습니다. A회사보다 B회사가 스트레스를 더 받는 회사인 모양입니다. ^^;

많은 도움 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지