정규 분포와 연속 확률 분포 개념
다음 링크의 글을 보면서 정규 분포(Normal Distribution)에 대한 개념을 정리한 문서입니다. 추가로 연속 확률 분포(continuous probability distribution)에 관한 내용을 더 찾아서 넣었습니다.
https://medium.com/analytics-vidhya/normal-distribution-and-machine-learning-ec9d3ca05070
2022. 7. 12 최초작성
정규 분포
정규 분포(Normal Distribution) 또는 가우스 분포(Gaussian Distribution)는 연속 확률 분포(continuous probability distribution)입니다.
곡선의 중앙에 점선으로 표시한 데이터의 평균을 중심으로 곡선이 양쪽으로 50%씩 나누어지며 데이터의 평균을 중심으로 좌우 대칭인 종모양입니다.
정규 분포의 수학적 정의
연속 확률 변수 x의 확률 밀도 함수(probability density function)가 다음과 같이 주어질 경우 파라미터 μ(평균), σ(표준 편차)를 갖는 정규 분포를 따른다고 합니다.
특별히 평균이 0이고 표준 편차가 1인 정규분포를 표준 정규 분포(standard normal distribution)라고 합니다.
정규 분포 곡선 특성
- 정규 분포 곡선은 중앙에 위치하는 평균을 중심으로 50%씩 좌우에 위치하며 좌우 대칭입니다.
- 정규 분포 곡선은 하나의 피크(봉우리)를 갖습니다.
- 정규 분포 곡선 아래의 총 면적은 1과 같습니다.
- 연속적인 분포입니다.
- 수평축을 따라 x값이 + 방향으로 무한에 가깝게 이동하거나 -방향으로 무한에 가깝게 이동할 수록 y값은 0에 가까워집니다.
- 정규 분포 곡선는 정규 분포의 확률 밀도 함수를 나타내는 곡선입니다. 곡선의 수직 단면 영역은 특정값이 해당 단면을 구분하는 값 사이에 있을 확률을 나타냅니다.
정규 분포 곡선 아래 면적의 특성
평균(μ)과 표준 편차(σ)를 알면 정규 분포 곡선의 모든 지점에 접근할 수 있습니다.
예를 들어..
데이터의 68.26%가 μ - 1σ ~ μ + 1σ 이내에 속합니다.
데이터의 95.44%가 μ - 2σ ~ μ + 2σ 이내에 속합니다.
데이터의 99.7%가 μ - 3σ ~ μ + 3σ 이내에 속합니다.
따라서 거의 모든 데이터가 3 표준 편차(3 standard deviations) 내에 있습니다. 해당 영역에 속하는 데이터는 전체의 99.72%이기 때문입니다. 이 규칙을 사용하면 이상값(Outlier)을 확인할 수 있으며 분포의 정규성(normality, 분포가 정규분포인지 여부 확인)을 결정할 때 매우 유용합니다.
기계 학습에서 활용
기계 학습에서는 정규분포를 만족하는 데이터가 모델 학습에 유리합니다.
예를 들어 시그모이드(Sigmoid) 함수는 정규 분포 데이터에서 더 잘 작동합니다.
왜냐하면
시그모이드를 활성화 함수로 사용합니다. 시그모이드 함수가 다음 공식으로 표현되기 때문에 x는 모든 범위에 있을 수 있지만 y는 0에서 1 사이가 됩니다.
데이터가 스케일링 없이 사용된다면 x는 큰 값이 될 것이고 원하는 값이 0이더라도 시그모이드 함수는 항상 1을 리턴하게 됩니다. 이 문제를 피하려면 데이터를 스케일링해야 합니다.
데이터 스케일링은 데이터의 분포나 범위를 조정해 주는 것으로 여러가지 방법이 있습니다. 많이 사용하는 방법 중 하나가 데이터를 표준 정규 분포로 바꾸는 것입니다. 데이터 스케일링은 경사 하강법에서 수렴 속도를 향상시키는 효과도 있습니다.
여기서 부터는 연속 확률 분포에 대해 알기 위해 필요한 개념들을 참고한 사이트에서 찾아서 정리해놓았습니다.
확률 변수(random variable)
변수는 측정하고자 하는 특성을 의미합니다. 예를 들어 머리카락의 색을 특성으로 둘 수 있습니다.
변수의 값은 대상에 따라 달라질 수 있습니다. 사람에 따라 갈색이 될 수도 있고 검은색이 될 수도 있습니다.
변수의 값이 통계적 실험의 결과인 경우 해당 변수를 확률 변수(random variable)라고 합니다.
통계적 실험(Statistical Experiment)
모든 통계 실험에는 세 가지 공통점이 있습니다.
- 실험은 하나 이상의 가능한 결과(possible outcome)를 가질 수 있습니다.
- 가능한 각 실험 결과는 미리 알고 있으며 지정할 수 있습니다.
- 실험의 결과는 우연(chance)에 달려 있습니다.
동전 던지기(coin toss)는 통계 실험의 모든 속성을 가지고 있습니다.
동전 던지기에는 앞면(head) 또는 뒷면(tail)이라는 하나 이상의 가능한 결과가 있습니다.
우리는 가능한 결과를 미리 알고 있습니다
동전 던지기는 우연의 결과이기 때문에 실제로 동전을 던지기 전에는 결과를 알 수 없습니다. 하지만 충분히 던진다면 앞면과 뒷면이 나올 확률이 각각 50%에 가깝다는 사실을 알고 있습니다.
확률 변수(Random Variable)
변수의 값이 통계적 실험의 결과인 경우 확률 변수라고 합니다.
동전 두 번 던지기 실험은 다음처럼 네 가지 가능한 결과를 가질 수 있습니다
H는 앞면(Head), T는 뒷면(Tail)을 의미합니다.
HH, HT, TH, TT
이제 확률변수 X가 실험 결과에서 동전의 앞면이 나온 개수를 나타낸다고 하면 아래 표 처럼 확률변수 X는 0, 1, 2 값을 가질 수 있습니다.
이산 변수와 연속 변수
변수가 가질 수 있는 값이 일정한 범위내에서 무수한 값을 가질 수 있다면 연속 변수(continuous variable)라 하고 변수가 가질 수 있는 값이 셀 수 있는 정수값이라면 이산 변수(discrete variable)라고 합니다.
예를 들어 이산 변수와 연속 변수의 차이점을 알아봅니다.
소방서에 근무하는 모든 소방관의 체중이 150~250 파운드 사이라고 가정해 보겠습니다. 소방관의 체중은 연속 변수의 예입니다. 소방관의 체중은 150 파운드와 250파운드 사이의 값이 될 수 있기 때문입니다.
동전을 연속적으로 계속 던지며 앞면의 개수를 세는 경우 앞면의 개수는 0에서 무한대 사이의 정수 값일 수 있습니다. 그러나 앞면의 개수가 두 정수 사이의 숫자는 될 수 없습니다. 예를 들어, 2.5개의 앞면을 얻을 수 없습니다. 따라서 앞면의 개수는 이산 변수입니다. .
확률 분포(Probability Distribution)
확률 분포는 통계 실험의 각 결과를 발생가능 확률과 연결하는 표 또는 방정식입니다.
동전을 두 번 던지는 간단한 실험을 생각해봅시다. 실험 결과는 두 번의 동전 던지기에서 얻을 수 있는 앞면의 개수일 수 있습니다.
아래 표는 가능한 각 실험 결과를 발생 가능 확률과 연결합니다.
확률변수 X를 두 번의 동전 던지기에서 나온 앞면의 개수로 정의하면 위의 표는 확률변수 X의 확률분포를 나타냅니다.
확률 밀도 함수(Probability Density Function)
대부분의 경우 연속 확률 분포를 설명하는 데 사용되는 방정식을 확률 밀도 함수라고 합니다. 또는 밀도함수, PDF 라고도 합니다. 확률 밀도 함수는 다음과 같은 속성을 갖습니다.
- 연속 확률 변수는 연속적인 값범위에 대해 정의되므로 밀도 함수의 그래프도 해당 범위에서 연속적입니다.
- 밀도 함수의 곡선과 x축으로 둘러싸인 면적은 1과 같습니다.
- 확률 변수가 a와 b 사이의 값을 가정할 확률은 a와 b로 범위가 지정된 밀도 함수 아래의 면적과 같습니다.
예를 들어, 아래 그림에 표시된 확률 밀도 함수에서 확률 변수 X가 a보다 작거나 같을 확률을 알고 싶다고 가정합니다. 확률 변수 X가 a보다 작거나 같을 확률은 a와 마이너스 무한대를 경계로 하는 곡선 아래의 면적과 같습니다. 아래 이미지의 음영 영역가 해당됩니다.
참고: 그래프에서 음영 처리된 영역은 확률 변수 X가 a보다 작거나 같을 확률을 나타냅니다. 이것은 누적 확률(cumulative probability)입니다. 그러나 X가 특정값 a와 정확히 같을 확률은 0입니다.
누적 확률(Cumulative Probability)
누적 확률은 확률 변수의 값이 지정된 범위에 속할 확률을 나타냅니다. 흔히 누적 확률은 확률 변수가 지정된 값보다 작거나 같을 확률을 나타냅니다.
동전 두번 던지기 실험에서 앞면이 하나 이하가 나올 확률은 누적 확률입니다. 앞면이 0개 즉 앞면이 안나올 확률과 앞면이 1개 나올 확률을 더하면 됩니다.
앞면이 0개 이하 나올 확률입니다.
P(X ≤ 0) = P(X = 0) = 0.25
앞면이 1개 이하 나올 확률입니다.
P(X ≤ 1) = P(X ≤ 0) + P(X = 1) = P(X = 0) + P(X = 1) = 0.25 + 0.50 = 0.75
앞면이 2개 이하 나올 확률입니다.
P(X ≤ 2) = P(X ≤ 1) + P(X = 2) = P(X = 0) + P(X = 1) + P(X = 2) = 0.25 + 0.50 + 0.25 = 1.00
표로 정리하면 다음과 같습니다.
연속 확률 분포(Continuous Probability Distribution)
확률변수가 가질 수 있는 값이 일정 범위내에 있는 값이라면 그 확률분포를 연속 확률 분포라고 합니다.
연속 확률변수가 특정 값을 가정할 확률은 0입니다. 범위가 있는 경우에만 0 이상의 확률을 가집니다. 따라서 연속 확률 분포는 표 형식으로 표현할 수 없습니다. 대신 연속 확률 분포를 설명하기 위해 방정식이나 공식이 사용됩니다.
연속 확률 분포를 설명하는 데 사용되는 방정식을 확률 밀도 함수(pdf)라고 합니다. 모든 확률 밀도 함수는 다음 조건을 충족합니다.
확률 변수 Y는 X의 함수입니다. 즉, y = f(x)입니다.
y의 값은 x의 모든 값에 대해 0보다 크거나 같습니다.
함수 곡선 아래의 전체 면적은 1과 같습니다.
다음 그림은 0에서 1 사이의 범위에서는 방정식 y = 1로 설명되는 확률 밀도 함수를 보여주고 있습니다. 해당 범위 밖은 y = 0입니다. 곡선 아래 영역의 면적은 1과 같습니다.
그래프에서 명암제거
0에서 2까지의 범위에 대해 방정식 y = 1 - 0.5x로 설명되는 확률 밀도 함수를 보여주고 있습니다. 해당 범위 밖은 y = 0입니다. 곡선 아래 영역의 면적은 1과 같습니다.
연속 확률 변수가 a와 b 사이의 구간에 속할 확률은 a와 b 사이의 pdf 곡선 아래 면적과 같습니다.
예를 들어, 위의 첫 번째 그래프에서 음영 영역은 확률 변수 X가 0.6과 1.0 사이에 속할 확률을 보여줍니다. 0.40입니다.
두 번째 그래프에서 음영 영역은 확률 변수 X가 1.0과 2.0 사이에 속할 확률을 보여줍니다. 0.25입니다.
이산 확률 분포(Discrete Probability Distribution)
확률변수(random variable)가 이산변수(discrete variable)라면 그 확률분포를 이산확률분포라고 합니다.
예를 들어 동전을 두 번 던지난 간단한 통계 실험은 HH, HT, TH 및 TT의 네 가지 가능한 결과를 가질 수 있습니다.
확률 변수 X가 이 실험의 결과인 동전 앞면(head)이 나온 개수를 나타냅니다.
확률 변수 X는 0, 1 또는 2 값만 사용할 수 있으므로 이산 확률 변수입니다.
이 통계 실험의 확률 분포는 아래와 같습니다.
참고
https://medium.com/analytics-vidhya/normal-distribution-and-machine-learning-ec9d3ca05070
https://stattrek.com/statistics/dictionary.aspx?definition=continuous%20probability%20distribution
https://www.linkedin.com/pulse/what-difference-between-normalization-standardization-narayan-pandey