본문 바로가기
GIS/Statistics

[기초통계] 두 모집단의 비교(두 개의 독립 표본, 짝비교, 두 모비율의 차에 대한 추론)

by lucky__lucy 2023. 1. 31.

<통계학 : 파이썬을 이용한 분석> 책 내용 중 '12장. 두 모집단의 비교' 부분을 요약하였고, 필요한 내용은 더 추가한 글임을 미리 밝힙니다.

 

 

12. 두 모집단의 비교

 

(출처: https://saylordotorg.github.io/text_introductory-statistics/s13-01-comparison-of-two-population-m.html)

 

12.1 서론

- 개념
    - 처리(treatment): 비교하고자 하는 특성
    - 실험단위(experimental unit): 실험 대상
    - 반응값(response): 실험 후 얻어지는 수치
    



12.2 두 개의 독립 표본

- 독립인 두 개의 표본으로부터 두 모집단, 혹은 두 가지 처리효과를 비교하는 통계추론의 방법
    - e) 두 지역(A, B)의 가구당 소득 비교
    - $X_1,\cdots, X_{n1}$: 평균이 $\mu_1$이고 표준편차가 $\sigma_1$인 모집단으로부터 추출된 표본
    - $\bar X=\frac{1}{n_1}\sum^{n_1}_{i=1}X_i$, $s_1^2=\frac{1}{n_1-1}\sum^{n_1}_{i=1}(X_i-\bar X)^2$
    - $Y_1,\cdots, Y_{n2}$: 평균이 $\mu_2$이고 표준편차가 $\sigma_2$인 모집단으로부터 추출된 표본
    - $\bar Y=\frac{1}{n_2}\sum^{n_2}_{i=1}Y_i$, $s_2^2=\frac{1}{n_2-1}\sum^{n_2}_{i=1}(Y_i-\bar Y)^2$
    - 우리의 관심사는 두 모집단의 평균 반응값 차이(=모수 $\mu_1-\mu_2$에 대한 추론)
- 모평균의 차($\mu_1-\mu_2$에 대한 추론)(표본의 크기가 클 때)
    - 두 모평균의 차에 대한 추론을 위해서 두 표본평균의 차를 이용하며, 두 표본의 크기 $n_1, n_2$가 모두 큰 경우(30 이상), 중심극한정리에 의해 $\bar X, \bar Y$는 근사적으로 정규분포를 따름
        - $\bar X$~$N(\mu_1, \frac{\sigma^2_1}{n_1}), \bar Y$~$N(\mu_2, \frac{\sigma^2_2}{n_2})$
    - (정규분포의 성질에 따라)두 변수의 합과 차는 각각 정규분포를 따르며 평균은 $\mu_1 \pm \mu_2$, 분산은 $\sigma^2_1+\sigma^2_2$가 됨
        - $(X\pm Y)$~$N(\mu_1 \pm \mu_2, \sigma^2_1+\sigma^2_2)$(복호동순)
    - 두 표본은 서로 독립이므로 $\bar X-\bar Y$도 다음과 같은 정규분포를 따름
        - $(\bar X-\bar Y)$~$N(\mu_1-\mu_2, \frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2})$
        - $Z=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/n_1+\sigma^2_2/n_2}}$~$N(0,1)$
    - $(\mu_1-\mu_2)$의 신로구간은 추정량$\pm$($z$값)$\times$(추정된 표준오차)
        - $(\bar X-\bar Y)\pm z_{\alpha/2}\times \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}$
- 모평균의 차($\mu_1-\mu_2$에 대한 추론)(표본의 크기가 작을 때)
    - 표본의 크기가 작을 때 필요한 가정
        - (1) 두 모집단이 모두 정규분포를 따름
        - (2) 두 모집단의 표준편차가 일치$(\sigma_1=\sigma_2=\sigma)$
    - 두 표본은 정규분포를 따르므로, 두 표본평균도 각각 정규분포를 따르며 $\bar X-\bar Y$도 정규분포를 따름
        - $(\bar X-\bar Y)$~$N(\mu_1-\mu_2, \sigma^2(\frac{1}{n_1}+\frac{1}{n_2}))$
    - 공통분산 $\sigma^2$의 합동추정량(pooled estimator)
        - $s_p^2=\frac{\sum_{i=1}^{n_1}(X_i-\bar X)^2+\sum_{i=1}^{n_2}(Y_i-\bar Y)^2}{n_1+n_2-2}=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$
    - 모평균의 차($\mu_1-\mu_2$에 대한 추론)(모표준편차가 같을 때)
        - 두 모집단이 모두 정규분포를 따르고 두 모표준편차가 같을 때 $(\mu_1-\mu_2)$에 대한 $100(1-\alpha)$% 신뢰구간은 $(\bar X-\bar Y)\pm t_{\alpha/2}(n_1+n_2-2)\times s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$
    - 모평균의 차($\mu_1-\mu_2$에 대한 추론)(표본의 크기가 작고 모표준편차가 다를 때)
        - $(\mu_1-\mu_2)$에 대한 $100(1-\alpha)$% 신뢰구간은 근사적으로 $(\bar X-\bar Y)\pm t^*_{\alpha/2}\times \sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}$
        - 이때 $t^*$의 자유도는 $(n_1-1)$과 $(n_2-1)$ 중 작은 값

 


        
12.3 짝비교(matched pair comparisons)

- 짝비교
    - 실험단위들이 비슷해야 한다는 것 vs 다양한 실험단위를 대상으로 비교해야 한다는 것의 절충안
    - 같은 쌍의 실험단위는 서로 비슷하고, 다른 쌍의 실험단위와는 서로 다르도록 하는 것
    - 각 쌍 $(X_i, Y_i)$는 서로 독립이나 각 쌍 내에서 $X_i$와 $Y_i$는 서로 독립이 아님
- 랜덤화(rondomization)
    - 무작위로 배정하는 것
    - e) 각 쌍에서 한 환자에게 동전 던지기로 A, B 중 하나의 약을 처방하고 남은 환자에게는 다른 약을 처방함으로 환자 간 어떤 차이가 있더라도 한 종류의 약에만 영향을 주지는 않도록 하는 것

 


 

12.4 두 모비율의 차에 대한 추론

- 두 모집단의 비율을 비교하는 추론
    - e) 두 도시의 실업률 비교, 두 치료 방법의 완치율 비교 등 어떤 특성에 대한 두 모집단의 비율을 비교하는 경우
    - 이러한 문제를 다룰 때 얻는 자료는 대체로 아래 표 12-1과 같음

  특성 $A$인 것(성공) 특성 $A$가 아닌 것(실패) 표본의 크기
모집단 1 $X$ $n_1-X$ $n_1$
모집단 2 $Y$  $n_2-Y$ $n_2$

        - 두 모집단의 특성 A의 비율이 각각 $p_1, p_2$라고 하면, 각 추정량은 $\hat p_1=\frac{X}{n_1}, \hat p_2=\frac{Y}{n_2}$
        - 두 모비율의 차 $(p_1-p_2)$의 추정량은 $(\hat p_1-\hat p_2)$
- 두 모집단의 비율 차$(p_1-p_2)$의 신뢰구간
    - 추정량으로 모비율을 추론하기 위해서는 $(\hat p_1-\hat p_2)$의 분포를 알아야 함
    - 표본의 크기 $n_1, n_2$가 큰 경우,
        - $X$~$N(n_1p_1, n_1p_1(1-p_1))$, $Y$~$N(n_2p_2, n_2p_2(1-p_2))$가 근사적으로 성립
            - [원형] 확률변수 $X$의 분포가 $Bin(n, p)$일 때 $E(X)=np, Var(X)=npq, sd(X)=\sqrt{npq}$가 됨 (7.3 이항분포 p205 참고)
    - 따라서, $\hat p_1=\frac{X}{n_1}$~$N(p_1, \frac{p_1(1-p_1)}{n_1})$, $\hat p_2=\frac{Y}{n_2}$~$N(p_2, \frac{p_2(1-p_2)}{n_2})$
        - [원형] 표본비율 $\hat p=\frac{\bar X}{n}$, 표준오차 $S.E.(\hat p)=\sqrt \frac{p(1-p)}{n}$, 추정된 표준오차 $\sqrt \frac{\hat p(1-\hat p)}{n}$ (10.4 모비율에 대한 추론 p302 참고)
    - 두 표본이 독립이므로$(\hat p_1-\hat p_2)$~$N((p_1-p_2), (\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2})$
        - 이를 표준화하면, $Z=\frac{ (\hat p_1-\hat p_2)- (p_1-p_2)}{\sqrt{(\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2})}}$~$N(0, 1)$
            - [원형] $Z=\frac{\hat p-p}{\sqrt \sigma}$ (10.4 모비율에 대한 추론 p303 참고)
    - 신뢰구간은 $(\hat p_1-\hat p_2)\pm z_{\alpha/2}\times\sqrt{(\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2})}$
        - [원형] (추정량)$\pm$($z$값)$\times$(표준오차)
        - 이때, $p_1, p_2$는 미지수이므로 $\hat p_1, \hat p_2$로 대입하면 $100(1-\alpha)$% 신뢰구간은 $(\hat p_1-\hat p_2)\pm z_{\alpha/2}\times\sqrt{(\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2})}$
- $H_0:p_1-p_2=0$에 대한 가설검정
    - 귀무가설 $H_0: p_1=p_2$, 대립가설 $H_1: p_1\neq p_2$
        - 좌측검정 $p_1-p_2<0$, 우측검정 $p_1-p_2>0$
    - 귀무가설 $H_0: p_1=p_2$이 맞을 때, $(\hat p_1-\hat p_2)\sim N(0, {\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2}})$
    - 검정통계량 $Z=\frac{(\hat p_1-\hat p_2)}{\sqrt{\frac{\hat p_1(1-\hat p_1)}{n_1}+\frac{\hat p_2(1-\hat p_2)}{n_2}}}$
    - 각 대립가설에 대하여 유의수준 $\alpha$를 갖는 기각역은 다음과 같음
        - $H_1:p_1>p_2$일 때, $R:Z \geq z_\alpha$
        - $H_1:p_1<p_2$일 때, $R:Z \leq -z_\alpha$
        - $H_1:p_1 \neq p_2$일 때, $R: |Z| \geq z_{\alpha/2}$

 

 

 
통계학: 파이썬을 이용한 분석
오늘날 통계학을 이용한 데이터 분석에서 통계소프트웨어의 사용은 거의 필수적이다. 파이썬(Python)을 이용하여 실습과 분석을 할 수 있도록 설명한 책이다. 파이썬은 빅데이터 처리에서 가장 많이 쓰이는 고급 프로그래밍 언어 중 하나로서 인터넷을 통해 무료로 또한, 지속적으로 새로운 함수 등이 업데이트되고 있어서 실제로 트렌디한 데이터 분석 및 여러 인공지능 관련 프로그래밍에서 필수적인 언어로 자리매김하는 중이다. 각 장 마지막 부분에는 파이썬을 이용한 예제를 제시하여 그 장에서 소개한 내용에 대한 예제를 따라하면서 언어와 분석 방법을 익힐 수 있도록 구성하였으며, 기본적인 파이썬에 대한 사용법은 부록에 수록하였다.
저자
인하대학교 통계학과
출판
자유아카데미
출판일
2022.06.25

 

728x90
반응형