R 할줄 R지? #11 - R 기초 통계 함수들
- 프로그램언어/R
- 2020. 5. 22.
R은 데이터분석을 위해서 태어난 언어이다보니 다양한 통계 함수들이 별도의 라이브러리를 호출하지 않아도 기본적으로 내장이 되어 있다.
통계 함수가 잘 돌아가는지 쉽게 이해하기 위해서, 아이리스같은 분석용 데이터셋을 사용하지 않고 별도의 데이터셋을 생성하여 진행해보고자 한다.
실험 데이터
> korean <- c(10,40,70,65,45,100,50,80,70,1000)
이와같이 심플한 국어점수 배열값이 들어간 korean이라는 변수가 있다. 여기에 1000이라는 점수는 사실 기초 통계 함수를 쉽게 이해시키기 위해서 넣은 점수이다.
총합(sum)
> sum(korean)
[1] 1530
모든 벡터를 더한다.
평균(mean)
> mean(korean)
[1] 153
모든 벡터를 더한 수 벡터 수로 나눈 값이다.
중앙값, 중위수(median)
> median(korean)
[1] 67.5
중앙값과 평균의 차이를 설명하기 위해서 1000이라는 값을 넣어봤는데 중앙값은 평균이 아니라 값을 정렬했을 때 중앙에 위치하는 값이 어딘지를 뜻한다.
> sort(korean)
[1] 10 40 45 50 65 70 70 80 100 1000
데이터가 10개이며, 중앙에 위치한 값은 5~6번째의 값 사이이니, 65점과 70점의 사이인 67.5가 중앙값이 된다.
최소값(minimum value)
> min(korean)
[1] 10
가장 낮은 값을 리턴한다
최대값(maximum value)
> max(korean)
[1] 1000
가장 높은 값을 리턴한다
분산(variance)
> var(korean)
[1] 89173.33
표준편차(standard deviation)
> sd(korean)
[1] 298.619
로그값(log)
> log(korean)
[1] 2.302585 3.688879 4.248495 4.174387 3.806662 4.605170 3.912023 4.382027 4.248495 6.907755
분위수(Quantile)
> quantile(korean)
0% 25% 50% 75% 100%
10.00 46.25 67.50 77.50 1000.00
분위수는 값을 정렬 후, 경계에 해당하는 값을 의미한다. 25%는 1사분위수이며 하위 25프로의 값이며 75%는 3사분위수라고 하며, 상위 25%에 해당하는 값을 말한다.
'프로그램언어 > R' 카테고리의 다른 글
R 할줄 R지? #10 - 데이터 정렬하기 (0) | 2020.05.22 |
---|---|
R 버전 업그레이드하기 (0) | 2020.05.14 |
R 할줄 R지? #9 - 파일 읽기 및 저장 (0) | 2020.04.29 |
R 할줄 R지? #8 - IRIS로 데이터 프레임 다뤄보기 (0) | 2020.03.04 |
R 할줄 R지? #7 - 2차원 다루기, 데이터프레임(Data Frame) (0) | 2020.02.18 |