NoSQL 개요 NoSQL 개념 NoSQL은 키(Key)와 값(Value)의 형태로 자료를 저장하고, 빠르게 조회할 수 있는 자료 구조를 제공하는 저장소이다. 일반적인 DB인 RDBMS의 경우 조인(Join)을 수행할 수 있지만, NoSQL은 DB의 특성에 따라 Join 연산을 지원하거나 복잡한 Join을 지원하지 않으며 일반적으로 대용량 데이터와 대규모 확장성을 지원한다. NoSQL은 원래 non-SQL(비 SQL) 혹은 non-relational(비 관계형)라는 의미로 쓰였으나, NoSQL DB에서 SQL을 지원하는 경우가 속속 등장하면서 현재는 Not only SQL이라고 말하기도 한다. [2] NoSQL의 경우 4가지 대표 유형의 DB가 존재하는데 키-값(KeyValue), 컬럼 기반(Column..
1. 구글 파일 시스템(Google File System, GFS) - 구글 파일 시스템은 구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템으로 개발 가. GFS의 가정 - 저가형 서버로 구성된 환경으로 서버의 고장이 빈번히 발생할 수 있다 가정 - 대부분의 파일은 대용량이라 가정하며 효과적으로 관리할 수 있는 방법 요구 - 작업 부하는 연속적으로 많은 데이터를 읽는 연산이나 임의의 영역에서 적은 데이터를 읽는 연산 - 파일 쓰기는 순차적으로 데이터를 추가하며 파일에 대한 갱신은 드물에 이루어짐 - 동시에 파일을 추가하는 환경에서 동기화 오버헤드를 최소화할 방법 요구 - 낮은 응답 지연시간보다 높은 처리율이 중요 나. GFS의 구성 - GFS는 아래와 같이 클라이언트, 마스터, Chunk ..
1. 대용량 로그 데이터 수집 - 로그(Log)는 기업에서 발생하는 대표적인 비정형 데이터 - 과거에는 시스템의 문제 상황, 서비스 접근, 사용 로그를 기록하는 용도 - 최근에는 사용자 행태 분석, 마케팅, 영업 전략 필수 정보 생성 - 비정형 로그는 용량이 방대하기에 성능과 확정성 시스템 필요 가. 초고속 수집 성능과 확장성 - 수집 대상 서버가 증가하면 수만큼 에이전트 수를 늘리는 방식 나. 데이터 전송 보장 메커니즘 - 다양한 저장소의 종류에 따라 수집에서 저장소까지의 양 종단점 간에 데이터 전송 안정성 수준 제어 필요 - 여러 단계를 거쳐 저장소에 도착할 수 있는데 단계별로 신호를 주고 받아서 이벤트 유실 방지 - 성능과 안정성은 트레이드 오프(Trade-Off)가 존재하며 비즈니스 특성 고려해 ..
데이터 연계 및 통합 유형 (동기화 기준) - 데이터 연기 및 통합 시 일괄(Batch) 작업, 비동기식 근접 실시간(Near Real Time), 동기식 실시간(Real Time) 방식이 혼용 사용 될 수 있음 - 일괄 작업 시 대용량 처리가 가능하며, 실시간 작업은 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능 일괄 및 실시간 사례 일괄 작업 사례 - ETL 기능을 통해 운영 시스템으로부터 ODS를 구성하고, 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통한 경영 분석 수행 작업 실시간 데이터 통합 사례 - 컨테이터 터미널, 공장 등의 센서들로부터 데이터를 실시간으로 획득해 운영 상태 모니터링 및 통제 (Complex Event Processing이라는 SW 및 데..
1. EAI(Enterprise Application Integration)의 개요 가. EAI의 개념 - EAI는 기업 정보 시스템들의 데이터를 연계ㆍ통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크 - 기업, 기관, 단체 등에서 사용하는 모든 응용 프로그램을 상호 연계하여 통합하는 것 나. Point to Point 문제 - 기존 레거시 시스템들을 직접 연결하는 포인트 투 포인트(Point to Point) 방식으로 데이터를 연계하게 되면 그림 1과 같은 복잡성이 발생할 수 있음 - Point to Point 연계 시, N개의 연결 대상 노드가 존재할 경우 연결은 N(N-1)/2개가 발생한다. - 그림 1의 경우 연결 대상이 6개이므로 6(6-1)/2 = 30/2 = 15개의 연결이 필요하다 다..
1. CDC(Chage Data Capture)의 개요 가. CDC의 개념 - 데이터베이스(Database) 내 데이터에 대한 변경을 식별해 필요한 후속 처리(데이터 전송/공유 등)를 자동화하는 기술 또는 설계 기법이자 구조 (데이터 분석 전문가 가이드) [1] - 변경된 데이터를 사용하여 동작을 취할 수 있도록 데이터를 결정하고 추적하기 위해 사용되는 여러 소프트웨어 디자인 패턴들의 모임 (위키피디아) [2] 나. CDC의 방식 - 푸시 방식 : 데이터 원천(Source)에서 변경을 식별하고 대상 시스템 변경 데이터를 적재 - 풀 방식 : 대상 시스템(Target)에서 데이터 원천을 정기적으로 살펴서 필요시 데이터를 다운로드 2. CDC 구현 기법 - 시스템 개발자들은 수많은 방식으로 또 애플리케이션 ..
1. ETL의 개요 가. ETL의 개념 - ETL은 Extraction, Transformation and Load의 약어로 이뤄졌으며 데이터 이동과 변환 절차에 관련된 업계 표준 용어 - 데이터 웨어하우스(DW, Data Warehouse), 운영 데이터 스토어(ODS, Operation Data Store), 데이터 마트(DW, Data Mart)에 대한 데이터 적재 작업의 핵심 구성요소 - 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)등 폭넓게 활용 - ETL을 위한 여러 상용 소프트웨어가 있으며, 일괄(Batch) ETL과 실시간(Real Time) ETL로 구분됨 나. ETL의 3가..
1. 분석 마스터 플랜 수립 프레임워크 - 중장기적 관점의 마스터 플랜 수립을 위해 분석 과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성 등 다양한 기준을 고려해 우선순위 설정 - 종합적으로 고려하여 데이터 분석을 실행하기 위한 로드맵 수립 - 분석 마스터 플랜은 정보전략계획(ISP, Information Strategy Planning)을 활용하되 데이터 분석의 특성을 고려하여 계획 수립 ISP 참고 기업의 정보화 전략계획, ISP ISP라는 단어는 인터넷 시장에서 주로 쓰이는 Internet Service Provider라는 말로 보통 인식하지만, 정보화 프로젝트를 구축하고 계획하고, 설계하는 사람들에게는 Information Strategic Planning이라는..
해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)와 공통 과목인 3과목 데이터 분석 기획 제 1장 데이터 분석 기획의 이해 제 4절 분석 프로젝트 관리 방안에 관련된 내용 입니다. 분석과제 관리를 위한 5가지 주요 영역 분석과제는 일반적인 다른 프로젝트의 관리의 10가지 영역별(통합, 이해관계자, 의사소통 리스크 등) 관리가 수행되어야 할 뿐 아니라 데이터에 기반한 분석기법을 적용하는 특성으로 인해 5가지 주요 속성을 고려한 추가적인 관리가 필요하다 Data Size (데이터 양) - 분석하고자 하는 데이터 양을 고려한 관리 방안 수립 필요- 기존 RDBMS에서 관리하는 데이터 양과 하둡(Hadoop) 등에서 관리하는 엄청난 양의 빅데이터는 필연적으로 관리 방식에서 차이가 날 ..
분석 과제를 본격적으로 정의하기 위해서 '분석과제 정의서'를 작성하여 분석별로 필요한 소스 데이터, 분석 방법, 데이터 입수 난이도, 데이터 입수 사유, 분석 수행주기, 분석결과에 대한 검증 Owner, 분석 과정 상세 등을 작성한다. 분석 과제 정의서는 향후 프로젝트 수행 계획의 입력물로 사용되며 수행하는 이해관계자가 프로젝트의 방향을 설정하고, 성공 여부를 판별 할 수 있는 중요한 자료로서 명확하게 작성해야 한다. 분석과제 정의서 샘플 분석명 분석정의 해지 상담 접촉패턴 분석 기 해지 계약건 발생 고객의 해지 시점 상담정보 분석을 통해 해지 고객의 상담 특성을 발굴하는 분석 소스데이터 데이터 입수 난이도 분석방법 접촉채널, 검수, 접촉평균 시간 최종 접촉 이후 해지까지 시간 상담인력 업무 능숙도 서비..
상향식 접근 방법(Bottom Up Approach)는 하향식 접근 방법(Top Down Approach)의 주제를 잡고 문제를 해결해 나가는 방식과 반대로 데이터를 기반으로 문제를 찾아내는 방식을 말한다. 하향식이 주로 지도 학습(Supervised Learning) 기반의 알고리즘을 이용한다면, 상향식은 문제를 찾아내기 때문에 비지도 학습(Unsupervised Learning)을 주로 사용한다. 하향식 접근 방법의 한계 - 솔루션 도출에는 유효하지만 새로운 문제 탐색의 한계 - 논리적인 단계별 접근법 기반의 문제해결 방식은 복잡하고 다양한 환경에서 발생하는 문제에는 비적합 - 이를 해결하기 위해 스탠포드 대학의 d.school(Institute of Design at Stanford)은 디자인 사고..
하향식 접근 방법(Top Down Approach)는 현황 분석을 통해 인식된 문제점 혹은 전략으로부터 문제 탐색(Problem Discovery), 데이터 문제로 정의(Problem Difinition), 해결방안을 탐색(Solution Search), 데이터 분석의 타당성 평가(Feasibility Study)라는 단계를 거쳐 분석 과제를 도출하는 과정이다. 문제 탐색(Problem Discovery) - 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출 및 식별이 중요 - 기준 모델로 비즈니스 모델과 외부 참조 모델 존재 - 문제를 해결하여 발생하는 가치에 중점 비즈니스 모델 기반 문제 탐색 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객,단위로 문제를 발굴하고, 이를 ..