지니계수(Gini), 모집단 다양성

이탈리아의 통계학자이자 경제학자인 코라도 지니(Corrado Gini)의 이름을 따서 지니라고 불리우며, 불평등의 지수를 표현한다. 인구의 다양성을 조사할 때 자주 사용되며, 같은 모집단에서 무작위로 선택된 두 항목들이 같은 클래스에 있을 확률을 나타낸다.

위 JTBC에 나온 화면처럼, 지니계수가 0으로 갈수록, 평등하며 1로 갈수록 불평등하다고 볼 수 있다.

소득분배의 불평등 외에도, 부의 편중이나 에너지 소비의 불평등에도 활용한다.

위 그래프는 2차 세계대전 이후, 나라별 지니계수이다.

지니계수를 토대로 부의편중을 측정하였을 때, 브라질이 압도적으로 현재 1위이다.

그래프를 보면 알다시피, BRICS와 미국이 높은 값을 유지하고 있는데...

"인구수가 높을 경우 부의 편중이 심할 가능성이 높다"라는 가설을 세울 수 있을 것이다.

소득분배를 기준으로 볼 때는 0으로 갈수록 편중되지 않고 평균화 되어 있다는 말이지만, 데이터 분석의 의사결정트리에서의 분류를 할 경우에는 말이 달라진다.

즉, 데이터를 분류하기 위해서는 특정한 값으로 쏠리는(순수도가 높은) 경우가 좋은데 이럴 경우 지니는 당연히 1에 가까워진다. 즉, 데이터 분류가 잘됐는지 체크하기 위해서 지니를 활용 할 경우 1에 가까울수록 좋다는 말이다.

위 그림에서 지니척도를 계산해보자.

Gini 척도의 공식은 클래스 비율의 제곱의 합이다.

위 검정색, 흰색 동그라미들을 각각 흑인과 백인으로 치환하고, A와 B라는 마을에 특정 분류값을 기준으로 배정을 했다고 가정해보자.

클래스 비율의 제곱의 합이기 때문에 처음 흑인 10명과 백인 10명은

흑인비율 10/20 => 0.5

백인비율 10/20 => 0.5

가 될 것이고,

0.5의 제곱인 0.5*0.5는 0.25이기 때문에

흑인 0.25 + 백인 0.25 = 0.5

즉, 첫 백인과 흑인 비율은 지니척도가 0.5가 된다.

초기 데이터를 기준으로 A와 B마을로 나뉘게 될텐데 사실, 흑인 10명, 백인 10명이고

2군데로 나눴기 때문에 A마을과 B마을은 Gini 척도가 동일하게 된다.

즉 왼쪽의 흑인 9명, 백인 1명은

(0.9*0.9) + (0.1*0.1) = 0.82 라는 값이 나오고,

마찬가지로 우측의 백인 9명, 흑인 1명은

(0.1*0.1) + (0.9*0.9) = 0.82 라는 값이 나오기 때문에

2개로 분류된 지니 점수는

(10/20) * 0.82 + (10/20) * 0.82 = 0.82가 나오게 된다.

첫번째, 초기데이터는 Gini 척도가 0.5이지만, 두번째 분류하고 난 후 척도는 0.82가 된다.

즉, 분류하고 난 이후의 순수도가 높아졌다고 말할수 있고, 해당 분류는 성공적인 분류를 수행했다라고 말할 수 있을 것이다.

저작자표시 (새창열림)

'인공지능 및 데이터과학 > 데이터분석 & 통계' 카테고리의 다른 글

통계학(statistics)의 역사 (0)	2016.08.19
통계학(statistics)은 무엇인가? (0)	2016.08.19
데이터마이닝 기법, 의사결정나무 2탄 (1)	2016.08.17
데이터마이닝 기법, 의사결정나무 1탄 (0)	2016.08.17
데이터마이닝(Data Mining) 이란? (2)	2016.08.16

Sidebar - Right

블로그 정보

Steele

IT, 인공지능, 빅데이터, 블록체인, 정보처리기술사 그리고 과학 관련 포스팅을 적는 블로그입니다.

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

자비스가 필요해