통계 측정방법, 척도의 종류
- 인공지능 및 데이터과학/데이터분석 & 통계
- 2020. 1. 28.
측정(measurement)
- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 행위를 뜻하며, 어떤 대상의 속성에 숫자를 부여하는 과정이다.
측정의 수준(level of measurement)
질적척도(qualitative scale)
- 범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도이며 명목척도와 서열척도(순서척도)가 존재한다.
- 자료를 평균으로 사용할 수가 없으며 측정하기는 쉽지만 고급 통계 분석 활용이 어렵다.
명목척도(nominal scale)
- 속성을 분류하는 척도, 측정 대상이 어디에 속하는지, nominal(이름뿐인)이라는 의미처럼 값이 의미있는 데이터가 될 수가 없다.
- 숫자로 바꿔도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주만 존재
ex) 운동선수의 등번호, 성별, 출생지, 혈액형
혈액형에는 A,B,O,AB형이 있다, 이 값을 컴퓨터가 인식하기 쉽게 각각 1,2,3,4로 바꿨다고 하더라도 이 값들간에 상하 관계가 존재하지 않는다.
순서척도 혹은 서열척도(ordinal scale)
- 순서 관계를 밝혀주는 척도, 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학년, 신용등급)
- 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있음 (ex: 1등이 2등보다 성적이 높다)
ex) 선호 순서, 신용 등급
서열이 존재하지만, 이 서열로 계산을 할 수 없는 데이터같은 것들이 순서척도 혹은 서열척도라 말할 수 있다. 대회에 있는 금메달, 은메달 같은 것도 서열척도이다. 분명 서열은 존재하지만 이 값으로 계산을 할 수가 없다. 금메달이 은메달보다 좋은 것은 알겠지만 얼만큼 좋은 것인지를 표현할 수가 없다.
양적척도(quantitative scale)
- 수치형 자료, 숫자들의 크기 차이를 계산할 수 있는 척도이며 등간척도(구간척도)와 비율척도가 존재한다.
- 자료를 평균으로 사용할 수 있으며 측정하기는 어렵지만 고급 통계 분석 활용이 수월하다.
구간척도 혹은 등간척도(interval scale)
- 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료(온도, 지수)
- 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능
ex) 온도, 지수
온도같은 경우 대표적인 구간척도라고 할 수 있다. 구간과 비율의 차이에 절대적 기준인 0(없는 것, absolute zero)이 존재하는가가 있는데 온도에서 "0도"라는 개념은 온도가 없다는게 아니라, 0도(물이 어는 구간)라는 온도가 있는 것이다.
비율척도(ratio scale)
- 간격(차이)에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (무게, 나이, 시간, 거리)
ex) 체중, 나이, 거리
가장 쓸모가 많은 척도가 바로 비율척도이다. 사칙연산이 가능하며 비율, 순서, 간격 모두 가지고 있기 때문이다. 숫자로 표현이 가능한 대부분이 것들이 비율척도라 할 수 있다. 다만 등간척도에서 설명한 것처럼 "값이 없을 수 있는 값"가 존재할 수 있어야 한다.
등간척도와 아직 비율척도가 아직 헷갈릴 수 있는데 이렇게 생각해보자, 우리가 무게를 잰다고 할 때 0이라는 값부터 시작하여 무게를 잰다. 그러나 온도를 잰다고 할 때 0도부터 잴수가 없다. 왜냐하면 0도라는 것도 결국 온도가 있기 때문이다. 즉, 어떤 초기화 값이 온도는 가질 수가 없다.
척도 비교표
측정수준 |
척도 |
성질 |
예 |
수학적 구조 |
분류 |
명목척도(nominal scale) | 고유함 | 전화번호,주소 | 비가산 집합 |
순서척도(ordinal scale) | 순서 | 순위,서열 | 비가산 집합 | |
수량 |
구간척도(interval scale) | 순서, 간격 | 온도,지능지수 | 사칙연산중 가산가능 |
비율척도(ratio scale) | 순서,간격,비율 | 자연수,몸무게 | 사칙연산 가능 |
참고자료
ko.wikipedia.org/wiki/명목척도
'인공지능 및 데이터과학 > 데이터분석 & 통계' 카테고리의 다른 글
코로나 바이러스의 통계 분석, 부제 남자가 과연 더 위험할까? (0) | 2020.03.11 |
---|---|
노벨상의 매칭 알고리즘, 게일-섀플리(Gale-Shapley) 알고리즘 (0) | 2020.02.07 |
표본 추출 방법, 확률 표본 추출의 종류 (0) | 2020.01.28 |
맨하탄 거리(Manhattan Distance) 개념과 구현해보기 (0) | 2020.01.10 |
유클리디안 거리(Euclidean Distance) 개념과 구현해보기 (0) | 2020.01.10 |