[기초통계] 정규분포(연속확률분포, 정규분포의 일반적인 성질 및 확률계산, 이항분포의 정규분포근사, 정규분포가정의 조사)

<통계학 : 파이썬을 이용한 분석> 책 내용 중 '8장. 정규분포' 부분을 요약하였고, 필요한 내용은 더 추가한 글임을 미리 밝힙니다.

8. 정규분포(normal distribution)

8.2 연속확률분포

- 각 $x$값에 확률을 대응시키는 대신, 주어진 구간에서 확률이 어떻게 분포하는가 계산할 때 사용
- 확률밀도함수(probability density function)를 적용하기 위해서 다음을 만족해야 함
    - (1) 모든 $x$값에 대해 $f(x)\geq 0$
    - (2) $P(a\leq X\leq b)=\int_{a}^b{f(x)dx}$
    - (3) $P(-\infty<X<\infty)=\int_{-\infty}^\infty{f(x)dx}=1$

8.3 정규분포의 일반적인 성질 및 확률계산

- 확률변수 $X$가 평균 $\mu$, 분산 $σ^2$을 갖는 정규분포를 따를 때, $X$의 확률밀도함수표준

정규분포의 확률밀도함수(출처: https://namu.wiki/w/확률밀도함수 )

- $\mu$는 분포의 중심을 나타내는 위치모수, $σ^2$는 평균으로부터 퍼져 있는 정도를 나타내는 모수가 됨
- 표준정규분포(standard normal distribution)
    - 정규분포 중에서 평균이 0이고 분산이 1인 경우
    - 확률변수 $Z$가 $N$(0, 1)이라고 할 때 $Z$는 0을 중심으로 대칭인 분포를 가짐
    - $P[Z\leq-z]=1-P[Z\leq z]$
- 표준정규확률변수(standard normal random variable)
    - 확률변수 $X$가 $N(\mu, σ^2)$일 때, 표준화된 확률변수 $Z=\frac{X-\mu}{σ}$는 평균이 0이고 분산이 1인 정규분포 $N$(0, 1)을 따름

8.4 이항분포의 정규분포근사

- 이항분포의 $np$와 $n(1-p)$가 모두 클 때 그 분포가 정규분포에 가까워짐

(출처: https://bookdown.org/mathemedicine/Stat_book/normal-distribution.html )

- 확률변수 $X$가 이항분포, 즉 $X$~$Bin(n,p)$이고 $np$나 $n(1-p)$가 모두 클 경우에(보통 10 이상) $X$는 근사적으로 평균이 $np$이고 표준편차가 $\sqrt {np(1-p)}$인 정규분포를 따름
- $Z=\frac{X-np}{\sqrt{np(1-p)}}$~$N(0,1)$로 표현

8.5 정규분포가정의 조사

- 많은 통계적 절차 및 분석의 경우 모집단이 정규분포를 따른다고 가정하고 있으나, 만약 정규분포가 아니라면 그 이후의 분석은 무의미해짐
- 표본을 추출했을 때 모집단이 정규분포인지 확인하는 방법
    - 가장 쉬운 방법은 그래프 이용
    - e) 히스토그램, 관측값과 정규분포의 확률밀도함수 비교
        - 실제 자료가 $(\bar{x}-s, \bar{x}+s), (\bar{x}-2s, \bar{x}+2s), (\bar{x}-3s, \bar{x}+3s)$ 구간에 포함되는 비율과, 정규분포 특성상 통상적으로 포함되는 자료의 비율(68.3%, 95.5%, 99.7%)과 비교

- 정규점수그림(normal scores plot) 또는 정규확률그림(normal probability plot)
    - 정규점수(normal scores): 표준정규분포(평균 0, 표준편차 1)(정규분포를 표준화한 것)에서 이상적인 표본
        - 즉, 표준정규분포의 확률밀도함수를 등확률 구간으로 나누어주는 경곗값(z값)을 의미
        - e) 그림 8-11에서 4개의 지점($m_1, m_2, m_3, m_4$)은 확률밀도함수를 5개 등확률 영역(넓이)으로 나눈 것이며, 이 점들이 정규점수가 됨 (n분위수를 생각하면 쉬움)
        - 정규분포표에서 0.2, 0.4, 0.6, 0.8 값과 가장 가까운 수를 찾으면, z 값은 -0.84, -0.25, 0.25, 0.84로 나옴

    - 정규확률그림 그리는 법
        - (1) 자료를 작은 것부터 크기순으로 나열
        - (2) 각 자료에 해당하는 점수 계산
        - (3) $i$번째 순서의 자료와 $i$번째 순서의 정규점수를 하나의 쌍으로 2차원 공간상에 표현
    - 정규확률그림의 해석
        - 이상적인 $x$값은 평균이 $\mu$고 분산이 $σ^2$인 정규모집단에서 등확률 간격으로 나누는 값이며, $x=\mu+σz$ 식을 통해 구할 수 있음
        - 만약 모집단이 정규분포를 따른다면 관측된 x값과 정규점수($m_i$) 간에 직선 관계식이 성립함
    - 자료의 변환
        - 표본 크기가 작은 경우, 여러 통계분석을 하려면 모집단이 정규분포를 따른다는 가정 필요
        - 추출된 표본이 정규확률그림 등에서 정규분포와 다르고 판명되면 자료 변환을 통해 정규분포 형태를 갖도록 시도할 수 있음(정해진 규칙은 없고 여러 가지 시도를 해봐야 함)
        - 큰 자료값을 더 크게: $x^2, x^3$
        - 큰 자료값을 작게: $x^{1/4}, \sqrt{x}, log \space x, 1/x$

통계학: 파이썬을 이용한 분석

오늘날 통계학을 이용한 데이터 분석에서 통계소프트웨어의 사용은 거의 필수적이다. 파이썬(Python)을 이용하여 실습과 분석을 할 수 있도록 설명한 책이다. 파이썬은 빅데이터 처리에서 가장 많이 쓰이는 고급 프로그래밍 언어 중 하나로서 인터넷을 통해 무료로 또한, 지속적으로 새로운 함수 등이 업데이트되고 있어서 실제로 트렌디한 데이터 분석 및 여러 인공지능 관련 프로그래밍에서 필수적인 언어로 자리매김하는 중이다. 각 장 마지막 부분에는 파이썬을 이용한 예제를 제시하여 그 장에서 소개한 내용에 대한 예제를 따라하면서 언어와 분석 방법을 익힐 수 있도록 구성하였으며, 기본적인 파이썬에 대한 사용법은 부록에 수록하였다.

저자: 인하대학교 통계학과

출판: 자유아카데미

출판일: 2022.06.25

728x90

저작자표시 비영리 변경금지

'GIS > Statistics' 카테고리의 다른 글

[기초통계] 통계적 추론–표본의 크기가 클 때–(모평균의 추정, 모평균에 대한 검정, 모비율에 대한 추론) (1)	2023.01.27
[기초통계] 표집분포(계량의 확률분포, 표본평균의 분포와 중심극한정리) (0)	2023.01.18
[기초통계] 이항분포와 그에 관련된 분포들(베르누이 시행, 이항분포, 초기하분포, 포아송분포) (0)	2023.01.16
[기초통계] 확률분포(확률변수, 이산확률변수와 확률분포, 확률분포의 기댓값과 표준편차, 두 확률변수의 결합분포, 공분산과 상관계수, 두 확률변수) (0)	2023.01.11
[기초통계] 확률(사건의 확률, 확률의 계산, 확률법칙, 조건부확률과 독립성) (2)	2023.01.10