빅데이터(bigdata)의 정의
맥킨지(McKinsey, 2011)
- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
IDC, 2011
- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
빅데이터 관심이 확대되면서, 인재나 조직까지도 빅데이터라는 개념에 포함시킬 것을 제안하기도 함(노무라 연구소)
메이어-쇤베르거와쿠키어(Mayer-Schonberger&Cukier, 2013)
- 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일
빅데이터를 요약한 특징 3V, 가트너(Gartner)의 더그 래니(Doug Laney)가 정리
3V = Volume(데이터의 양), Variety(데이터 유형과 소스의 다양성). Velocity(데이터 수집과 처리 측면의 속도)
빅데이터의 정의는 데이터 자체 -> 처리, 분석 기술 포함 -> 인재, 조직 변화까지 포함하는 넓은 관점으로 정의하고 있음
데이터 분석 전문가 가이드
기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식
빅데이터 출현 배경
빅데이터는 없던 개념이 아니라, 데이터, 처리방식, 사람과 조직차원에서 일어나는 변화이며, 패러다임 전환(paradigm shift) 현상이 일어난 것
- 산업계 - 고객 데이터 축적
- 학계 - 거대 데이터 활용 과학 확산
- 관련 기술 발전 - 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅
산업계
- 양질 전환 법칙
- 거대한 가치 창출이 가능할 만큼 충분한 규모의 데이터 도달
학계
- 빅데이터를 다루는 현상 증가, 대표적으로 게놈(genome) 프로젝트
- 게놈 프로젝트 초기, 10년을 일주일로 단축할 수 있으며 비용은 1/1만으로 축소
기술발전
- 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅 보급화
저장장치의 하락, https://mkomo.com/cost-per-gigabyte
모바일 시대
- SNS에 감정 데이터를 쏟아내고 있음
- 스마트폰에 내장된 GPS, 가속센서, 거리센서 등으로 사용자의 Context(상황) 정보를 양산
클라우드 컴퓨팅
- 빅데이터의 처리 비용을 획기적으로 낮춘 측면
- 데이터의 경제적 가치는 비용에 좌지우지 될 수 있음
- 클라우드 분산 병렬처리 컴퓨팅으로 대용량 데이터를 맵리듀스(MapReduce)와 같은 혁신적인 방식을 통해 획기적으로 감소
한국 정보화 진흥원(NIA), 새로운 미래를 여는 빅 데이터 시대(2013)
빅데이터 기능
빅데이터의 관심이 집중되는 이유는 무한한 가능성 때문이며, 표현한 비유로 4가지를 들 수 있음
석탄과 철
증기기관의 발명으로 촉발된 산업혁명에서 석탄은 증기기관을 작동시키는 열 제공 자원이었으며, 증기기관은 생산 뿐 아니라 철도 시스템을 통해 유통에서도 상상할 수 없는 혁신을 만들어 냄
21세기의 원유
원유처럼 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 '정보'를 제공함으로써 산업 전반의 생산성을 향상시키고, 기존에 존재하지 않았던 새로운 범주의 산업을 만들어 낼 것으로 전망됨
렌즈
현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 전반에 영향을 미칠 것으로 기대되며, 대표적으로 구글(Google)의 Ngram Viewer를 사례로 들 수 있음
Ngram Viewer에서 미국의 문서들을 수집하여, The United States 이후에 복수형 are가 들어온 것이 is로 바뀌게 되었던 변화를 그래프로 쉽게 알 수 있게 됨.
플랫폼
다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공하여, 다양한 서드파티 사업자들이 비즈니스에 필요한 정보를 활용하게 될 것으로 예상
빅데이터가 만들어 내는 본질적인 변화
빅데이터로 인한 근본적인 변화는 네가지 측면으로 살펴볼 수 있음
사전 처리에서 사후 처리로
정보 관리 시스템의 능력을 넘어서는 정보량을 다루기 위해서 정보의 사전 처리(pre-processing)가 필요했었으나, 구글과 같은 대기업에서 아무도 관심을 두지 않는 로그(Log) 데이터를 분석해 광고에 매칭하면서 세계 최고의 인터넷 기업으로 성장할 수 있었으며 이와 같이 별다른 사전 처리 없이 모든 데이터를 모으고 처리하는 방식을 사후 처리를(post-processing) 방식으로 부른다.
표본조사에서 전수조사
기존에는 새로운 가치나 지식의 발견을 위해 표본조사(sampling)에 의존하였으나 표본조사는 전수조사에서 알지 못하는 것을 놓칠 수 있다.(전수조사가 좋은걸 알지만, 시간, 비용, 기술 등으로 기존에는 불가능) 게다가 샘플링은 상황에 따라 데이터를 재수집해야 하는 상황이 발생하여 융통성이 떨어진다고 볼 수 있음.
질보다 양으로
IBM의 번역 프로젝트는 잘 만들어진 말뭉치(corpus)를 중심으로 데이터베이스를 구축하여 번역을 시도했지만, 오역이 있는 웹사이트까지도 수십억건 이상의 데이터를 수집할 경우 '사소한 몇개의 오류 데이터는 대세에 영향을 주지 못한다'는 경향에 의거한 구글의 번역서비스가 훨씬 퀄리티가 좋은 번역 서비스를 만들어 내면서 성공함
인과관계에서 상관관계로
기존의 과학법은 이론(theory)에 기초한 수집할 변인을 결정하고 엄격한 실험을 통해 인과관계(causation)를 찾으려 했었다. 빅데이터 시대는 이유를 몰라도 결과를 기반으로 원인을 분석하는 상관관계의 시대로 가고 있다. 대표적인 케이스로는 구글에서 독감을 검색하는 빈도가 늘어나고 있는 지역은 독감이 퍼지는 지역이다.
A/B 테스트와 같이 사용자들이 뭘 더 선호하는지의 결과에 따라서 웹사이트 화면을 바꾸거나 서비스 알고리즘을 바꾸는 등의 행위도 결과로는 상관관계에 관련이 있는 분석 및 서비스 기법이다.
이렇게 상관관계의 확장으로 이론의 종말이라고 하나, 인과관계를 잘 아는 것은 상관관계의 해석도 늘어날 수 있는 것이기에 인과관계를 불필요한 것이 아니다.
'IT 자격증 > 데이터 분석 준전문가(ADsP)' 카테고리의 다른 글
1과목 2장 위기 요인과 통제 방안, ADsP/ADP 요약 및 설명 #8 (0) | 2020.01.26 |
---|---|
1과목 2장 빅데이터의 가치와 영향, 비즈니스 모델 ADsP/ADP 요약 및 설명 #7 (0) | 2020.01.25 |
사회기반구조의 데이터베이스, ADP/ADsP 요약 및 설명 #5 (0) | 2020.01.20 |
기업내부 데이터베이스, ADP/ADsP 설명 #4 (0) | 2020.01.17 |
데이터베이스 정의와 특징, ADP/ADsP 설명 #3 (0) | 2020.01.15 |