빅데이터의 가치
빅데이터 시대에서는 데이터의 활용 방식과 가치창출 방식, 분석 기술의 발전 때문에 데이터 가치 측정이 쉽지 않음
데이터 활용 방식
- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없기에 가치 산정하는 것이 어려워짐
- 데이터 재사용은 1차 목적뿐 아니라 2차, 3차적 목적으로도 사용 가능
- 데이터의 다목적용의 경우 CCTV의 데이터는 절도범을 구별할 수 있으며, 구매 정보도 동시에 얻을 수 있음
새로운 가치 창출
- 빅데이터 시대에는 데이터가 기존에 없는 가치를 창출하기에 가치 측정이 어려움
분석 기술의 발전
- 클라우드 분산 컴퓨팅으로 저렴한 분석이 가능해지면서 기존에 분석하지 못한 것들을 분석할 수 있고 점점 활용도가 증가하고 있음
이밖에도 데이터는 기존 사업자에게 경쟁 우위를 제공하기도 함
빅데이터의 영향
기업
- 혁신, 경쟁력 제고, 생산성 향상
- 소비자의 행동을 분석, 시장 변동을 예측해 비즈니스 모델을 혁신 및 신사업 발굴
- 원가절감, 제품 차별화, 기업활동의 투명성 제고 등에 활용하여 강한 경쟁력 확보
- 기업들의 운용 효율성이 증가하여 산업 전체의 생산성이 향상
정부
- 환경 탐색, 상황 분석, 미래 대응
- 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집하여 사회 변화 추정 및 재해 관련 정보 추출
- SNS 분석이나 시스템 다이내믹스, 복잡계 이론과 같은 분석으로 미래 의제 도출
개인
- 목적에 따라 활용
- 경제력 여력이 있는 정치인이나 대중 가수 등이 빅데이터 활용 사례 증가
빅데이터 활용 사례
기업
구글
- 사용자의 로그 데이터를 활용하면서 기존의 페이지 랭크(PageRank) 알고리즘 혁신
월마트
- 고객의 구매 패턴을 분석하여 상품 진열
- 허리케인이 올 때 손전등과 비상음식을 함께 진열하여 매출 증대
IBM 왓슨
- 병원에서 인공지능 컴퓨터 도입
맥킨지는 의료분야에 빅데이터가 적용될 경우 연간 약 3300억 달러가 절약될 것으로 평가
정부
환경 탐색
- 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스를 위한 모니터링
상황분석
- NSA(National Security Agency)가 소셜 미디어, CCTV, 통화기록, 문자 통화 내역 등의 모니터링과 분석 결과를 국가 안전 확보 활동에 활용
개인
정치인
- 선거 승리를 위해 사회관계망 분석을 통해 유세 지역 선정
- 해당 지역의 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거전략
가수
- 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서 활용
빅데이터 활용 기본 테크닉 7가지
참고로 데이터 분석가 및 인공지능 전문가로 아래 7가지를 활용 기본 테크닉으로 선정한 것에 매우 놀라웠다. 몇몇개는 알고리즘이나 기법쪽으로 분류할 수 있겠지만 기계 학습은 기법과 알고리즘이 아니라 데이터의 흐름쪽에 가깝다.
기계학습과 일반적으로 반대의 개념이라 할 수 있는 것은 데이터마이닝이라 할 수 있다. 데이터마이닝은 기법등을 활용하여 분석을 하여 데이터 분석가가 유의미한 데이터를 해석하거나 하는 활동들을 말한다. 이것을 컴퓨터에게 시킬 경우 기계학습이 될 수 있다.
그러다보니 기계학습과 데이터마이닝에서 사용하는 기법이 유사하다. 예를 들어 디시전트리(의사결정나무)나 랜덤 포레스트는 대표적인 데이터마이닝 기법이지만, 기계학습이기도 하다. 그리고 디시전트리나 랜덤 포레스트로 Classification과 같은 기법을 쓸 수 있는 것이다.
아직까지 이해가 안된다면, 이 책은 딥러닝과 알파고를 각각의 빅데이터 테크닉으로 분리한 것과 같다. 알파고의 기술은 딥러닝의 일종인 강화학습을 쓴 것일 뿐이다. 그리고 강화 학습에는 또 여러가지 기법들이 존재한다. ADP와 ADsP를 뽑는 책 수준이 이따위니 이 책을 달달 외워서 합격한 사람들은 어느정도인지 감이 올 뿐이다.
연관 규칙 학습(Association rule learning)
- 상관관계를 이용한 주로 추천에 사용되는 기법
- 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?와 같은 문제에 답할 수 있음
유전 알고리즘(Genetic Algorithms)
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?와 같은 문제 해결에 사용
- 돌연변이, 자연선택등과 같은 자연의 매커니즘을 접목시킨 기법
회귀 분석(Regression Analysis)
- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?와 같은 질문에 사용
- 독립변수를 조작하여, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악
소셜 네트워크 분석(Social Network Analysis)
- 특정인과 다른 사람이 몇 촌(degree) 정도의 관계인가?를 파악할 때 사용
- 오피니언 리더(opinion leader, 영향력 있는 사람)을 찾아낼 수 있으며, 고객들간의 소셜 관계를 파악 가능
유형 분석(Classification Tree Analysis)
- 이 사용자는 어떤 특성을 가진 집단에 속하는가?와 같은 문제를 해결할 수 있음
기계 학습(Machine Learning)
- 시청 기록을 바탕으로 시청자가 보유한 영화 중 어떤 것을 보고 싶어 할까?와 같은 문제에 답할 수 있음
- 훈련 데이터(training data)를 통해 학습하여 예측을 수행
- 스팸 메일을 걸러내거나 사용자의 기호를 학습해 추천 서비스를 제공할 수도 있음
감정 분석(Sentiment Analysis)
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?와 같은 문제에 답할 수 있음
- SNS에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 수 있음
참고자료
'IT 자격증 > 데이터 분석 준전문가(ADsP)' 카테고리의 다른 글
1과목 2장 미래의 빅데이터, ADP 요약 및 설명 #9 (0) | 2020.03.09 |
---|---|
1과목 2장 위기 요인과 통제 방안, ADsP/ADP 요약 및 설명 #8 (0) | 2020.01.26 |
1과목 2장 빅데이터의 이해, ADsP/ADP 요약 및 설명 #6 (0) | 2020.01.25 |
사회기반구조의 데이터베이스, ADP/ADsP 요약 및 설명 #5 (0) | 2020.01.20 |
기업내부 데이터베이스, ADP/ADsP 설명 #4 (0) | 2020.01.17 |