통계학, 표준 정규 분포(Standard Normal Distribution)
우선 정규분포란, 가장 많이 주변에서 볼 수 있는 데이터 분포(데이터가 흩어져 있는 것)를 말한다.
예를 들면, 고3 남학생의 키의 분포라든지, 주식의 수익률이라든지...
흩어져 있는 데이터를 모와, 시각화했을 때, 산처럼 보여지는 것을 정규분포라고 한다.
정규분포는 위와 같은 그래프의 모습을 보여준다.
표준 정규분포는 가장 많이 발생하는 정규분포를 셋트로 만들었다고 보면 된다.
정규분포중 기준이 되는 것이므로, 일반적으로 데이터 분포가 정규분포의 모습을 띄게 되면, 표준정규분포를 기준으로 예측등의 행위를 할 수 가 있다.
평균값은 뮤, 표준편차 기호는 시그마라고 부른다.
위 그래프는 표준정규분포를 보여주는 그래프이다.
평균값을 기준으로 표준편차의 값에 따라서, 그래프의 값이 급격히 떨어지는 것을 볼 수 있다.
표준편차 ±1 값은 68%의 분포를 보이고 있다.
표준편차 ±2 값은 95%의 분포를 보이고 있다.
표준편차 ±3 값은 99.7%의 분포를 보이고 있다.
위와 같이 만들어진 셋트를 표준정규분포라고 한다.
일반적으로 가장 많이 보여지는 현상이라고 생각하면 된다.
위에 사례로 남학생의 평균키가 표준정규분포를 따른다고 했는데...아래의 징병검사의 남자 평균키를 보면 눈에 띄일정도로 정규분포의 모습을 보여준다
위 분포를 보면, 어느지역을 가더라도 171-175 사이의 남자가 가장 많고, 해당 키 주변으로 키가 점점 줄어드는 모습을 볼 수 있다.
표준정규분포의 값을 일단 그래프로 그려보도록 해보자
173cm 주변으로 비슷한 값들이 분포가 되어 있는 모습을 볼 수 있다.
그러나 몇퍼센트인지 알수가 없기에 표준분포값을 알 수 없으니, 해당 그래프를 도수분포표로변환해보도록 해보자
위에 설명한 대로 표준정규분포는 이미 세팅된 값이 존재한다.
표준편차 ±1 값은 68%의 분포를 보이고 있다.
표준편차 ±2 값은 95%의 분포를 보이고 있다.
위 표준정규분포를 보면, 당연히 표준편차 +- 1이 가장 많은 비율을 가지고 있고, 다음 +- 2는 95%인 1보다 27% 떨어지는 분포를 보여준다. 그리고, +- 3은 99.7%인 2보다 4.7% 밖에 차이가 나지 않는다.
위 분포표를 기준으로, 전혀 모르는 남성의 키를 대충 아래와 같이 예측할 수 있다.
A라는 남성의 키는 약 80%의 확률로 170cm대의 키를 가지고 있을 것이다.
이는 실제로 상당히 많이 쓰고 있는 기법인데 정규분포를 따르는 데이터들은 우리가 쉽게 값을 예측할 수 있다는 것이다.
일반적으로는 +- 2 표준편차인 95%값을 예측을 하게 된다.
그외 관측치의 5%(0.05) 미만이 이 범위의 바깥에 있게 되는데, 이 범위를 바탕으로 많은 가설 검정에서 알파 수준으로 0.05가 사용된다.