확률의 함정을 간파, 베이즈 정리(Bayes' Theorem)

    베이즈 정리는 일반인들이 알고 있던 통계의 지식을 무너트리는 역할을 한다. 물리학도가 양자역학의 개념을 배울 때 새로운 신세계가 열리는 것처럼 통계에서 베이즈가 그런 역할을 하는 것 같다. 실제로 통계학도 사이에서도 베이즈 정리는 또 다른 통계의 세계이며, 필자의 부하직원에게 베이즈 정리에 대해서 잘 아는가에 대해 물어봤을 때 "저는 그쪽이 아니라 정통파입니다"라는 답변을 들었을 정도이다.

     

     

    베이즈 정리에 대한 대표적인 예시로, "확률 게임"에 나온 예시이다.

    자동차 사고로 사망한 사람의 40%는 안전띠를 매지 않았다고 한다. 그렇다면 60% 안전띠를 매고 죽었다는 의미인데 안전띠가 더 위험한 것이 아닌가?

    위 예시를 보면 정말 그럴듯해보인다. 상대방이 통계를 잘 모르면 아무말을 못하고 당할 것만 같다. 문제는 위와 같이 멍청하게 상대방을 공격했을 때, 설명해도 상대방이 "난 그런거 몰라"하면 끝나버리는 것이 바로 이쪽 통계의 세계인 것 같다.

     

    사실 위 전제가 맞을려면 운전자 중 50%는 안전띠를 매고 50%는 매지 않아야 된다. 그렇게 따지면 매는 것이 더 위험하다는 말이 설득력 있고, 통계상 정말 그럴 수 있다. 하지만, 대다수의 운전자는 안전띠를 맨다. 95% 정도가 안전띠를 맨다고 가정을 하게 되면, 95%의 안전띠를 맨 사람 중 죽은 사망자 수와 10%의 안전띠를 매지 않은 사람들 중 죽은 사망자 수를 계산하게 되면 단순히 60%, 40%가 아닌 전혀 예상하지 못한 수치가 나오게 된다.

     

    안전띠 여부로 사망할 확률

    안전띠 여부로 사망할 확률, 출처 나무위키

     

    위 안전띠 여부로 사망할 확률을 보면 알 수 있듯 베이즈 정리라는 공식은 다음과 같다.

     

    베이즈 정리 공식

     

    이외에도 다음과 같은 사례가 있다

    90%로 대장암을 진단하는 검사기가 있는데, A라는 환자가 검사기로 대장암이 진단되었다. 그런데 의사는 환자에게 "걱정하지 마세요. 대장암에 걸린 확률은 8% 정도 밖에 되지 않습니다"라고 말을 하였다. 도대체 왜 이런일이 발생한 것일까?

    단순히 생각하면 뭐가 잘못되었는지 모르겠지만 여기에는 한가지 문제가 있다. 바로 암을 검사하는 녀석과 암이 발생할 확률이 별개라는 것이다. 아직 이해가 안된다면 아래와 같은 표를 보도록 한다.

     

    구분 양성 음성 도합
    대장암환자가 아닌 경우 990명 8910명 9900명
    대장암환자인 경우 90명 10명 100명
      1080명 8920명  

    위 검사기기로 검사를 할 때 대장암이 아닌 환자를 검사 했을 때 9,900명중 양성 990명, 음성 8910명 즉 정확률 90%를 보여주었다. 그리고 대장암 환자 역시 양성 90%, 음성 10%로 정확율(accuracy)가 90%에 달하는 검사기이다. 하지만 대장암이 아닌 환자 9,900명중 990명이나 양성이라 판단하였고, 대장암이 아닌 사람들이 훨씬 많기 때문에 이 검사기의 실제적인 정확도는 90%가 아닌 것이 된다.

     

    베이즈 정리 공식을 기반으로 양성반응이 나온 사람들 중 암환자일 가능성은 90명 / (990명 + 90명) = 8.33%이 된다.

     

    위의 이야기처럼 우리는 상당히 많은 통계의 함정에 빠지게 되고 어설프게 통계를 배운 사람들이 가장 무서운 사람이 될 수가 있다. 데이터 사이언티스트가 어려운 이유중 하나는 바로 이런 숨은 값들을 찾아내야 하는 것이다. 어찌 보면 통계학도에게 가장 중요한 것은 스킬이 아니라, 변수를 찾아내는 능력이라 생각한다. 

     

    변수를 찾아내지 못한다면, 여름에 아이스크림을 먹으면 상어에게 물려죽을 확률이 높다는 어처구니 없는 이야기가 나올 수도 있는 것이다. 상어에 물려 죽는 사람들 중 아이스크림을 많이 먹었다라는 것 때문에 상어가 아이스크림의 냄새를 맡아 사람을 죽인다고 생각하는 통계학도가 있다면 제발 이쪽 길을 은퇴해주는 것이 우리 모두를 위해서 도움이 될 것이다.

     

    연관포스팅

    쉽고 강력한 머신러닝, 나이브 베이즈 분류 (Naive Bayes Classification)

     

    참고자료

    https://namu.wiki/w/%EC%A1%B0%EA%B1%B4%EB%B6%80%ED%99%95%EB%A5%A0?from=%EC%A1%B0%EA%B1%B4%EB%B6%80%20%ED%99%95%EB%A5%A0

     

    댓글

    Designed by JB FACTORY