처음 이 책을 볼 때에는 그저그런 전문가 분이 집필한 어설픈 가이드북이 아닌가? 라는 생각을 가졌던 것 같습니다. 그러나 이 생각은 책을 펼친지 얼마 되지 않아 그런 생각은 고스란히 사라지고 말았습니다. 아마도 빅데이터 혹은 유사한 직무를 하는 분들은 자신의 직업이 명확히 무엇인지 모르는 분들이 많을 것입니다. 심지어 내가 하는 업무에 대한 명확한 정의를 내지 못하는 사람들이 꽤 많습니다. 이는 유사하면서도 미세하게 나뉠 수 있는 스킬과 업무의 특성 때문인데 년차가 얼마 되지 않을 경우 더더욱 본인의 직업을 정의 내리기 힘들어 합니다. 제가 이 책을 보기전에 회사 동료들 중 년차가 낮은 동료들에게 이렇게 물어본적이 있습니다. “연구원님은 본인의 직업을 디테일하게 정확히 무엇이다 정의 내릴 수 있나요?” ..
레디스(Redis) 제품은 무료 버전인 커뮤니티(Community) 버전과 상용 버전인 엔터프라이즈(Enterprise) 버전이 존재합니다. 해당 포스팅은 무료 버전인 커뮤니티 버전을 다운로드 받고 설치한 후, 작동이 되는지 간단히 사용해보는 것까지 진행을 해보겠습니다. 레디스 다운로드 https://redis.io/download/ Download Redis You can download the last Redis source files here. For additional options, see the Redis downloads section below. Stable (7.0) Redis 7.0 includes several new user-facing features, significant per..
데이터 연계 및 통합 유형 (동기화 기준) - 데이터 연기 및 통합 시 일괄(Batch) 작업, 비동기식 근접 실시간(Near Real Time), 동기식 실시간(Real Time) 방식이 혼용 사용 될 수 있음 - 일괄 작업 시 대용량 처리가 가능하며, 실시간 작업은 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능 일괄 및 실시간 사례 일괄 작업 사례 - ETL 기능을 통해 운영 시스템으로부터 ODS를 구성하고, 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통한 경영 분석 수행 작업 실시간 데이터 통합 사례 - 컨테이터 터미널, 공장 등의 센서들로부터 데이터를 실시간으로 획득해 운영 상태 모니터링 및 통제 (Complex Event Processing이라는 SW 및 데..
1. KDD(Knowledge Discovery in Databases)의 개요 - KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스 - 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조 Fayyad 박사 - 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시 9개의 프로세스 분석 대상 비즈니스 도메인의 이해 분석 대상 데이터셋 선택과 생성 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier) 등을 제거하는 정제작업이나 선처리 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경 분석..
위기 요인 빅데이터의 시대가 진행되면서 사생활 침해, 책임원칙 훼손, 데이터 오용등의 어두운면 있음 사생활 침해- M2M(Machine to Machine), IoT(Internet of Things) 시대가 본격화 되면서 정보 수집 센서들의 수가 늘어나고 있음- 개인 정보의 가치 증대로 많은 기업이 개인정보 습득에 많은 자원 투자- 사생활 침해 방지를 위해 익명화(anonymization) 기술이 발전하나 충분하지 못하는 의견 다수- 2013년 정치 스캔들인 미국 NSA(National Security Agency)의 이메일, 전화통화, 문자메시지 등을 수집, 저장한 사건은 대표적인 정부의 사생활 침해 사건 NSA의 개인 정보 수집에 대한 고발이 담긴 실화를 기반으로 한 영화, 스노든(Snowden) ..
빅데이터의 가치 빅데이터 시대에서는 데이터의 활용 방식과 가치창출 방식, 분석 기술의 발전 때문에 데이터 가치 측정이 쉽지 않음 데이터 활용 방식- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없기에 가치 산정하는 것이 어려워짐- 데이터 재사용은 1차 목적뿐 아니라 2차, 3차적 목적으로도 사용 가능- 데이터의 다목적용의 경우 CCTV의 데이터는 절도범을 구별할 수 있으며, 구매 정보도 동시에 얻을 수 있음 새로운 가치 창출- 빅데이터 시대에는 데이터가 기존에 없는 가치를 창출하기에 가치 측정이 어려움 분석 기술의 발전- 클라우드 분산 컴퓨팅으로 저렴한 분석이 가능해지면서 기존에 분석하지 못한 것들을 분석할 수 있고 점점 활용도가 증가하고..
빅데이터(bigdata)의 정의 맥킨지(McKinsey, 2011)- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 IDC, 2011- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 빅데이터 관심이 확대되면서, 인재나 조직까지도 빅데이터라는 개념에 포함시킬 것을 제안하기도 함(노무라 연구소) 메이어-쇤베르거와쿠키어(Mayer-Schonberger&Cukier, 2013)- 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등..
도서 정보 후쿠하라마사히로 / 경향BP ISBN : 9788969521422 정가 : 13,000 원 크기 : 149*213*18mm/341g 쪽수 : 215 출간일 : 2016-11-29 완독일 : 2017년 4월 13일 책의 요약 및 평가 이 책은 인사경영시스템에 관해서 인공지능 도입에 관한 설득이 주를 이루고 있다. 예를 들어, 인사 담당자들이 가지고 있는 편견이든지 혹은 세밀하지 못한 분석과 사람마다 구직자를 채용하기 위한 스킬의 편차 등을 예시로 들며, 처음에는 가볍게 이로 인한 문제점과 빅데이터로 인사 채용을 하고 있는 미국의 파이메트릭스라는 스타트업기업의 사례를 예시로 들며, 책의 흡입력을 높인다. 파이메트릭스는 기존의 채용시스템과 다르게 구직자에게 게임 같은 설문을 하게 만들면서, 단순의 ..
제 1편 빅데이터 분석 기획 방법론 제 1장 빅데이터분석의 개요 1. 빅데이터의 개념- 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘는 대량의 정형 또는 비정형 데이터 세트 및 결과를 분석하는 기술(위키피디아)- 3V : Volume(규모) + Variety(다양성) + 속도(Velocity)- 3V + @Complexity(복잡성)- 데이터 그 자체뿐 아니라 데이터에 대한 분석을 포함- 빅데이터의 핵심은 분석, 결론적으로 분석기반 과학적 의사결정의 원료 책에서는 4V가 안나왔는데 정확성까지 포함하여, 4V 라고도 불리운다. 정확성(veracity) : 데이터의 불확실성. 정확성은 일정 유형의 데이터에 부여할 수 있는 신뢰수준을 의미한다. 높은 데이터 품질을 유지하는 것은 빅..