R 할줄 R지? #11 - R 기초 통계 함수들

    R은 데이터분석을 위해서 태어난 언어이다보니 다양한 통계 함수들이 별도의 라이브러리를 호출하지 않아도 기본적으로 내장이 되어 있다.

     

    통계 함수가 잘 돌아가는지 쉽게 이해하기 위해서, 아이리스같은 분석용 데이터셋을 사용하지 않고 별도의 데이터셋을 생성하여 진행해보고자 한다.

     

     

    실험 데이터

    > korean <- c(10,40,70,65,45,100,50,80,70,1000)

    이와같이 심플한 국어점수 배열값이 들어간 korean이라는 변수가 있다. 여기에 1000이라는 점수는 사실 기초 통계 함수를 쉽게 이해시키기 위해서 넣은 점수이다.

     

    총합(sum)

    > sum(korean)
    [1] 1530

    모든 벡터를 더한다.

     

    평균(mean)

    > mean(korean)
    [1] 153

    모든 벡터를 더한 수 벡터 수로 나눈 값이다.

     

    중앙값, 중위수(median)

    > median(korean)
    [1] 67.5

    중앙값과 평균의 차이를 설명하기 위해서 1000이라는 값을 넣어봤는데 중앙값은 평균이 아니라 값을 정렬했을 때 중앙에 위치하는 값이 어딘지를 뜻한다. 

    > sort(korean)
     [1]   10   40   45   50   65   70   70   80  100 1000
    

    데이터가 10개이며, 중앙에 위치한 값은 5~6번째의 값 사이이니, 65점과 70점의 사이인 67.5가 중앙값이 된다.

     

    최소값(minimum value)

    > min(korean)
    [1] 10

    가장 낮은 값을 리턴한다

    최대값(maximum value)

    > max(korean)
    [1] 1000

    가장 높은 값을 리턴한다

    분산(variance)

    > var(korean)
    [1] 89173.33

    표준편차(standard deviation)

    > sd(korean)
    [1] 298.619

    로그값(log)

    > log(korean)
     [1] 2.302585 3.688879 4.248495 4.174387 3.806662 4.605170 3.912023 4.382027 4.248495 6.907755

    분위수(Quantile)

    > quantile(korean)
         0%     25%     50%     75%    100% 
      10.00   46.25   67.50   77.50 1000.00 

    분위수는 값을 정렬 후, 경계에 해당하는 값을 의미한다. 25%는 1사분위수이며 하위 25프로의 값이며 75%는 3사분위수라고 하며, 상위 25%에 해당하는 값을 말한다.

     

     

    댓글

    Designed by JB FACTORY