먼저 이 포스팅은 개인적인 뇌피셜일 수 있기 때문에 심각하게 생각하지 말아주셨으면 좋겠습니다. 요즘 독감 백신접종으로 인해서 일명 백신 포비아라는 말이 등장할 정도입니다. 독감 백신을 맞는 것이 코로나보다 위험하다는 것인데 사망자 수만보면 실제 코로나 사망자수 증가보다 빠를 정도입니다. 그러나 우리가 이 내용을 백신 때문에 돌아가셨다라고 그대로 받아들일 수 있을까요? 위 그래프는 한국 평균 수명을 나타냅니다. 한국인의 평균 수명은 82~83세 정도로 이 정도 나이가 되면 언제 돌아가실지 모른다는 것입니다. 제가 어릴적 밑에 층에 살던 중년 부부 중 여성분은 밥을 푸다 돌아가셨고, 남성 분은 아내분이 갑작스럽게 돌아가신것에 충격을 받아 며칠동안 술만 마시다가 돌아가셨습니다. 정말 살면서 별의별일 다 봤는데..
R은 데이터분석을 위해서 태어난 언어이다보니 다양한 통계 함수들이 별도의 라이브러리를 호출하지 않아도 기본적으로 내장이 되어 있다. 통계 함수가 잘 돌아가는지 쉽게 이해하기 위해서, 아이리스같은 분석용 데이터셋을 사용하지 않고 별도의 데이터셋을 생성하여 진행해보고자 한다. 실험 데이터 > korean sum(korean) [1] 1530 모든 벡터를 더한다. 평균(mean) > mean(korean) [1] 153 모든 벡터를 더한 수 벡터 수로 나눈 값이다. 중앙값, 중위수(median) > median(korean) [1] 67.5 중앙값과 평균의 차이를 설명하기 위해서 1000이라는 값을 넣어봤는데 중앙값은 평균이 아니라 값을 정렬했을 때 중앙에 위치하는 값이 어딘지를 뜻한다. > sort(kore..
측정(measurement) - 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 행위를 뜻하며, 어떤 대상의 속성에 숫자를 부여하는 과정이다. 측정의 수준(level of measurement) 질적척도(qualitative scale)- 범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도이며 명목척도와 서열척도(순서척도)가 존재한다.- 자료를 평균으로 사용할 수가 없으며 측정하기는 쉽지만 고급 통계 분석 활용이 어렵다. 명목척도(nominal scale)- 속성을 분류하는 척도, 측정 대상이 어디에 속하는지, nominal(이름뿐인)이라는 의미처럼 값이 의미있는 데이터가 될 수가 없다. - 숫자로 바꿔도 그 값이 크고 작음을 나타내는 ..
통계학은 이미 많은 범위에서 적용이 되고 있다. 마케팅, 추천, 경영 등등 안쓰이는 것이 없을 정도로 통계는 실생활에 가장 밀접히 다가간 수학적인 학문이 아닐까 싶다. 요즘 R툴이 범용적으로 쓰이고 있고, 회사에서도 데이터분석에 많은 관심을 갖다보니 회의때 통계에 관련된 용어가 심심치 않게 나오는 것을 볼 수 있을 것이다. 통계를 모르면, 회의때 왕따를 당하는 것 같은 소외감이 느껴지기도 할텐데 최소한 이런 소외감을 당하지 않기 위해서는 어느정도의 통계에 관련된 용어는 알아야 될 것이다. 물론 중고등학교때 통계에 대해서 배우지만, 사실 시간이 오래지나서 헷갈리기도 하고 안배웠던 분들도 분명 있을 것이다. 지금 설명하는 통계 용어는 통계를 알기 위해서 최소한에 이해해야 할 지식이다. 모집단(母集團, pop..
1. 함수의 도움말 보기 R studio까지 설치했다고 한다면 (http://needjarvis.tistory.com/44 포스팅 참조) 이제 슬슬 R이 어떤 기능들이 있는지 확인해봐야 한다. R은 통계 및 데이터분석에 특화된 언어이기 때문에 이런 기능들을 매우 쉽게 제공하고 있다. > help(함수명) 위와 같이 명령을 하게 되면, 함수에 관련된 help 값을 가져올 수 있다. 시각화를 위한 plot 함수를 help 명령어에 argument로 실행하면 studio에서 우측 하단의 붉은색 네모영역에 표시가 된다. help에서 많은 부분을 알려주기 때문에 유용하게 쓰이지만, 인자값(Arguments)만 알고 싶은 경우가 있다. 위 help에 표시된 Usage 밑에 나온 "plot(x, y, ...)" 이 ..
우선 정규분포란, 가장 많이 주변에서 볼 수 있는 데이터 분포(데이터가 흩어져 있는 것)를 말한다. 예를 들면, 고3 남학생의 키의 분포라든지, 주식의 수익률이라든지... 흩어져 있는 데이터를 모와, 시각화했을 때, 산처럼 보여지는 것을 정규분포라고 한다. 정규분포는 위와 같은 그래프의 모습을 보여준다. 표준 정규분포는 가장 많이 발생하는 정규분포를 셋트로 만들었다고 보면 된다.정규분포중 기준이 되는 것이므로, 일반적으로 데이터 분포가 정규분포의 모습을 띄게 되면, 표준정규분포를 기준으로 예측등의 행위를 할 수 가 있다. 평균값은 뮤, 표준편차 기호는 시그마라고 부른다. 위 그래프는 표준정규분포를 보여주는 그래프이다.평균값을 기준으로 표준편차의 값에 따라서, 그래프의 값이 급격히 떨어지는 것을 볼 수 있..
데이터를 분석하는 사람이나, 혹은 데이터를 다루는 현업이라면, R을 현재 다루고 있거나 다루는 것에 고민을 할것이다. 현재, R이라는 언어겸 플랫폼은 데이터 분석의 상징적인 언어가 되어버렸다. 그만큼 빠르고, 쉽게 분석이 가능하기 때문이다. 사실, 그동안 자바로 프로그램을 짜면서 데이터를 분석했었는데 (이게 사실 더 많은 데이터를 핸들링할 수 있는 장점이 있다) 데이터의 일부를 핸들링 하거나 검증등을 할 때는 R툴은 필수 아닌 필수로 보인다. R을 사용할려면 당연히 설치를 해야 한다. R은 오픈소스 이기 때문에 누구나 설치할 수 있고, 사용할 수 있다. http://cran.r-project.org 사이트로 접속한 후 아래와 같은 Step대로 설치한다. 참고로, 설치는 내 컴퓨터는 현재 윈도우 7 64b..
편차, 분산, 표준편차 모두 단순히 의미만 나열해서 설명을 하면 쉽게 이해가 안될수도 있고, 머리속에 잘 기억이 나지 않는다. 가장 쉬운 방법은 예시이고, 특히 비교를 할 경우 이해가 잘되는데 아래와 같은 사례가 있다고 가정한다. A회사와 B회사가 있는데 각각 직원이 5명밖에 없다. 이 회사 직원들의 연봉을 가지고 표준편차를 구해보자. A회사 1200만원, 1600만원, 5600만원, 6000만원, 7000만원 = 21,400만원 / 5 = 4,280만원 B회사 4000만원, 4500만원, 4250만원, 5000만원, 3650만원 = 21,400만원 / 5 = 4,280만원 두 회사 모두 4,280만원이 평균 연봉인 것은 분명하다. 그러나 같은 금액이라도 위 회사는 단순히 4,280만원이 평균연봉이다로만..
기록성인 데이터를 쭈욱~~ 나열을 할 때, 너무 많을 경우 눈에 잘 들어오지 않을 경우가 있다. 대표적인 것으로, 직장인의 연봉은 너무 많은 케이스가 존재하기 때문에 단순히 기록 형태로 보여주면, 평균이 얼마인지 어느구간이 많은지 눈에 잘 들어오지 않는다. 너무 많은 데이터를 열거하면, 블로그를 보기도 전에 지치게 된다. 해서... 아주 약간의 샘플성의 데이터만 보여준 후 설명하도록 하겠다. 가상으로 어느 회사의 직장인의 연봉이라고 만들어 보았다. 숫자는 4*5 = 20개밖에 존재하지 않지만, 눈에 확 띄는가?? 숫자가 20개니깐 그래도 약간의 시간을 투자하면 암산으로 어느정도 머리속에 분석을 할 수 있을 것이다. 그러나 위 숫자보다 10배가 많다면??? 머리속 암산의 영역에서 벗어나서, 종이와 펜을 들..
통계란, 현재 발생된 현상들을 의미있는 값으로 수치화 시키는 것이라고 볼 수 있다. 통계와 미래 예측을 동일시 하는 경향이 종종 보이는데... 한 예로, 과거에 이러이러한 일이 벌어졌으니, 앞으로도 이러이러한 일들이 벌어질 것이다. 라는 통계 데이터를 통한 추리를 하는 행위이다. 통계와 예측은 각각 "기술통계"와 "추리통계"라는 분야로 불리게 된다. 우리가 흔히 알고 있는 통계는 기술통계로서, 전문적으로 배운 사람은 가설과 예측을 더 잘할 수는 있지만, 통계의 핵심적인 목적은 사실 현상을 파악하기 위함일 것이다. 예를 들어, 세계각국 평균키 사례를 보면 알겠지만, 각국의 평균키로 미래를 예측할 수 있지만(ex: 연도별 증감수치등으로 인해서, 어느나라의 키는 더 커질 것이다) 이 수치의 목적은 현재 우리나..