우선 정규분포란, 가장 많이 주변에서 볼 수 있는 데이터 분포(데이터가 흩어져 있는 것)를 말한다. 예를 들면, 고3 남학생의 키의 분포라든지, 주식의 수익률이라든지... 흩어져 있는 데이터를 모와, 시각화했을 때, 산처럼 보여지는 것을 정규분포라고 한다. 정규분포는 위와 같은 그래프의 모습을 보여준다. 표준 정규분포는 가장 많이 발생하는 정규분포를 셋트로 만들었다고 보면 된다.정규분포중 기준이 되는 것이므로, 일반적으로 데이터 분포가 정규분포의 모습을 띄게 되면, 표준정규분포를 기준으로 예측등의 행위를 할 수 가 있다. 평균값은 뮤, 표준편차 기호는 시그마라고 부른다. 위 그래프는 표준정규분포를 보여주는 그래프이다.평균값을 기준으로 표준편차의 값에 따라서, 그래프의 값이 급격히 떨어지는 것을 볼 수 있..
통계학에서 금융상품의 샤프지수를 왜 설명을 하느냐라고 반문하는 분들도 계실것이나, 사실 샤프지수는 통계학에서 가장 중요한 표준편차로 만들어진 공식이자, 지수이다. 표준편차를 설명하면서, 하이 리스크 하이 리턴에 대해서 포스팅을 한 적이 있는데 표준편차 만으로 투자를 판단하기가 매우 힘들다. 하이 리스크(높은 표준편차)와 로우 리스크(낮은 표준편차)는 투자자의 성향, 그리고 판단에 따라서 하는 행동일 뿐이지. 하이 리스크가 로우 리스크보다 좋다 나쁘다를 단정 지을 수가 없다. 표준편차가 높으면 좋을까? 나쁠까? 편차, 분산의 의미와 표준편차 구하기 예를 들어, 대표적인 투자자인 워렌 버핏은 IT쪽은 투자를 하지 않기로 유명하다. IT쪽은 시장이 너무나 빨리 변하고, 판단하기가 힘들다는 이유에서 이다. 즉,..
표준편차가 이제 뭔지 알았다면, 표준편차에 대해서 쓰임새도 자세히 알아봐야 할 것이다. 과연 표준편차가 높으면, 좋은걸까? 나쁜걸까? 여러가지 사례를 들어서 확인해보도록 하겠다. 1. 단거리 달리기 어느 단거리 육상 선수 A와 B 선수가 있다. A선수는 100m 평균 기록이 10초 50, 표준편차 0.5 이고, B선수는 100m 평균 기록이 10초 40, 표준편차 0.2 일 경우 위 통계만 봤을 때, 둘중에 어느 선수가 더 우수한 선수일까? 정답은, 알 수가 없다이다. 그럼 이렇게 질문을 해보도록 하자. 어느 100m 대회가 있다. 1위의 기록이 약 10초 15 정도인 대회에서는 누구를 보내야 할까? 이 질문의 답은 A선수이다. A선수는 B선수에 비해 평균적으로는 성적이 떨어지지만, B선수보다 높은 기록..
편차, 분산, 표준편차 모두 단순히 의미만 나열해서 설명을 하면 쉽게 이해가 안될수도 있고, 머리속에 잘 기억이 나지 않는다. 가장 쉬운 방법은 예시이고, 특히 비교를 할 경우 이해가 잘되는데 아래와 같은 사례가 있다고 가정한다. A회사와 B회사가 있는데 각각 직원이 5명밖에 없다. 이 회사 직원들의 연봉을 가지고 표준편차를 구해보자. A회사 1200만원, 1600만원, 5600만원, 6000만원, 7000만원 = 21,400만원 / 5 = 4,280만원 B회사 4000만원, 4500만원, 4250만원, 5000만원, 3650만원 = 21,400만원 / 5 = 4,280만원 두 회사 모두 4,280만원이 평균 연봉인 것은 분명하다. 그러나 같은 금액이라도 위 회사는 단순히 4,280만원이 평균연봉이다로만..