R 할줄 R지? #11 - R 기초 통계 함수들

Steve Jang
프로그램언어/R
2020. 5. 22.

R은 데이터분석을 위해서 태어난 언어이다보니 다양한 통계 함수들이 별도의 라이브러리를 호출하지 않아도 기본적으로 내장이 되어 있다.

통계 함수가 잘 돌아가는지 쉽게 이해하기 위해서, 아이리스같은 분석용 데이터셋을 사용하지 않고 별도의 데이터셋을 생성하여 진행해보고자 한다.

실험 데이터

> korean <- c(10,40,70,65,45,100,50,80,70,1000)

이와같이 심플한 국어점수 배열값이 들어간 korean이라는 변수가 있다. 여기에 1000이라는 점수는 사실 기초 통계 함수를 쉽게 이해시키기 위해서 넣은 점수이다.

총합(sum)

> sum(korean)
[1] 1530

모든 벡터를 더한다.

평균(mean)

> mean(korean)
[1] 153

모든 벡터를 더한 수 벡터 수로 나눈 값이다.

중앙값, 중위수(median)

> median(korean)
[1] 67.5

중앙값과 평균의 차이를 설명하기 위해서 1000이라는 값을 넣어봤는데 중앙값은 평균이 아니라 값을 정렬했을 때 중앙에 위치하는 값이 어딘지를 뜻한다.

> sort(korean)
 [1]   10   40   45   50   65   70   70   80  100 1000

데이터가 10개이며, 중앙에 위치한 값은 5~6번째의 값 사이이니, 65점과 70점의 사이인 67.5가 중앙값이 된다.

최소값(minimum value)

> min(korean)
[1] 10

가장 낮은 값을 리턴한다

최대값(maximum value)

> max(korean)
[1] 1000

가장 높은 값을 리턴한다

분산(variance)

> var(korean)
[1] 89173.33

표준편차(standard deviation)

> sd(korean)
[1] 298.619

로그값(log)

> log(korean)
 [1] 2.302585 3.688879 4.248495 4.174387 3.806662 4.605170 3.912023 4.382027 4.248495 6.907755

분위수(Quantile)

> quantile(korean)
     0%     25%     50%     75%    100% 
  10.00   46.25   67.50   77.50 1000.00

분위수는 값을 정렬 후, 경계에 해당하는 값을 의미한다. 25%는 1사분위수이며 하위 25프로의 값이며 75%는 3사분위수라고 하며, 상위 25%에 해당하는 값을 말한다.

저작자표시 비영리 동일조건 (새창열림)

'프로그램언어 > R' 카테고리의 다른 글

R 할줄 R지? #10 - 데이터 정렬하기 (0)	2020.05.22
R 버전 업그레이드하기 (0)	2020.05.14
R 할줄 R지? #9 - 파일 읽기 및 저장 (0)	2020.04.29
R 할줄 R지? #8 - IRIS로 데이터 프레임 다뤄보기 (0)	2020.03.04
R 할줄 R지? #7 - 2차원 다루기, 데이터프레임(Data Frame) (0)	2020.02.18

Sidebar - Right

블로그 정보

Steele

IT, 인공지능, 빅데이터, 블록체인, 정보처리기술사 그리고 과학 관련 포스팅을 적는 블로그입니다.

자비스가 필요해