Blog
가우시안 분포(Gaussian Distribution) 본문
정의
$$ \text{pdf}: f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}\\ mean = \mu, \quad variance=\sigma^2 $$
확률론과 통계학에서 정규 분포 또는 가우시안 분포는 연속 확률 분포의 하나이다. 가우시안 분포는 수집된 자료의 분포를 근사하는 데에 자주 사용되며, 이것은 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문이다. 가우시안 분포는 2개의 매개 변수 평균 μ과 표준편차 σ에 대해 모양이 결정되고, 이때의 분포를 $N(\mu,\sigma^2)$로 표기한다. 특히, 평균이 0이고 표준편차가 1인 정규분포 $N(0, 1)$을 표준 정규 분포(standard normal distribution)라고 한다.
확률 변수 X는 다음과 같은 집합을 갖는다. $X=\{x | -\infty < x < +\infty\}$
중요한 파라미터는 평균과 분산이다.
가우시안 분포의 특징
- 가우시안 분포의 PDF는 평균에 대해서 대칭이다.
- 많은 표본값을 가지고 있을 때 이산확률 변수이더라도 정규분포로 근사할 수 있다.
- EX) n → $\infty$ 일 때, 이항 분포의 함수 그래프가 가우시안 분포와 유사해짐
- 더해지는 잡음은 주로 가우시안 분포로 모델링한다.
- i.i.d를 따르는 확률 변수 n개의 평균의 분포는 n이 적당히 크면 정규분포에 가까워진다는 정리인 중심 극한 정리에 의해 자연현상에서 가우시안 분포가 자주 관찰된다.
- 잡음 또한 자연현상에서 쉽게 볼 수 있는 가우시안 분포를 통해 샘플링할 수 있다.
- 단일 최빈값(mode)이 평균과 일치한다.
- 즉, 발생 가능성이 가장 높은 확률변수 값 = 평균이라는 뜻
- Estimation/Prediction 관점에서 최적의 분포로 만들어주는 특징임
- Minumum Mean Squared Error (MMSE) Estimate 할 때, 최소 값을 가지게 해주는 값은 평균
- Maximum Likelihood (ML) Estimation 할 때, 최대 값을 가지게 하는 확률 변수는 mode
- EX) 주사위 = {1, 1, 1, 2, 3, 4} 일 때
- MMSE ⇒ mean = 2
- MLE(Maximum probability) ⇒ mode ⇒ 1
정규 분포의 CDF
$$ \text{cdf}: P(X \leq x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi\sigma}} e^{-\frac{1}{2\sigma^2}(X-\mu)^2} dX $$
연속 확률 분포이므로 적분의 형태로 CDF를 표현한다.
확률 값을 좀 더 쉽게 구하기 위해서 변수 치환을 통해 Z에 대한 식으로 바꿔줄 수 있다.
$$ Z = \frac{X-\mu}{\sigma} \Rightarrow dZ = \frac{1}{\sigma} dX \\ \int_{-\infty}^{\frac{x-\mu}{\sigma}} \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}z^2} dz \Rightarrow P\left(Z \leq \frac{x-\mu}{\sigma}\right) $$
Z에 대한 식은 N(0, 1)인 표준 정규 분포 꼴과 똑같다는 것을 알 수 있다.
즉, 표준정규분포 $N_Z(0, 1)$의 확률표를 이용하여 일반적인 정규분포 $N_X(\mu, \sigma^2)$의 확률을 계산할 수 있다.($Z=\frac{X-\mu}{\sigma}$)
가우시안 분포 활용 예시
어떤 노트북 모델의 평균 수명은 500일이고, 표준편차는 30일인 정규분포를 따른다고 한다.
이럴 때, 노트북 수명이 550일이상일 확률을 구해보자.
정규분포 확률표를 이용하기 위해, 변수 치환를 통해 Z값을 구한뒤, 1에서 $P(Z<\frac{5}{3})$값을 빼줌으로써 $P(Z\geq \frac{5}{3})$값을 구할 수 있다.
$$ \begin{align*} P(X \geq 550) &= P\left(Z \geq \frac{550-500}{30}\right) \\[6pt] &= 1 - P\left(Z < \frac{550-500}{30}\right) \\[6pt] &= 1 - P\left(Z < \frac{5}{3}\right) \\[6pt] &\approx 0.0485 \\[6pt] &= 4.85\% \end{align*} $$
참고자료
'Math' 카테고리의 다른 글
지수 분포(Exponential Distribution) (0) | 2024.11.18 |
---|---|
포아송 분포(Poisson Distribution) (0) | 2024.11.18 |
기하 분포(Geometric Distributions) (0) | 2024.11.18 |
조건부 평균과 분산(Conditional Mean and Variance) (0) | 2024.11.18 |
확률변수의 평균과 분산(Mean and Variance of Random Variable) (0) | 2024.11.18 |