웹 마이닝 혹은 웹 데이터 마이닝은 일반적으로 웹으로 통한 모든 것들을 분석해서 얻는 마이닝을 뜻한다.
예를 들어, 서버에서 쌓이는 웹로그 라든지, 사용자의 행동이라든지, 사용자들이 작성한 웹 콘텐츠 등 웹으로 얻어진 모든 것들을 포함한다.
source, http://www.kdnuggets.com
이러한 Data 들을 분석하여 유용한 정보를 찾아내고, insight를 얻어내는 것이 핵심이라고 할 수 있다.
1. 웹으로부터 얻어지는 모든 데이터를 분석하는, 웹마이닝의 개요
가. 웹마이닝(Web Mining)의 개념
- 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내는 기법
- 웹 환경에서 얻어지는 고객의 정보, 데이터로 부터 특정 행위, 패턴 등의 유용한 정보를 이용하여 마케팅 및 의사결정에 활용하기 위한 마이닝 기법
- 데이터 마이닝 기법을 활용하여 웹 상의 문서들과 서비스들로부터 정보를 추출/발견하는 기법
나. 웹마이닝의 특징
- 대량의 웹로그를 기반으로 정보를 수집, 자료를 정제 및 클리닝
- 웹상의 고객 행위와 CRM 등 패턴 분석을 통하여 서비스 융합
- 연관 규칙, 분류 규칙을 적용하여 마케팅 서비스 접목
2. 웹 마이닝의 유형 및 구성요소
가. 웹 마이닝의 유형
웹 마이닝은 웹 구조 마이닝, 웹 콘텐츠 마이닝, 웹 사용 마이닝으로 분류된다
나. 웹 마이닝의 구성요소
3. 웹마이닝 유형 상세 설명
가. 웹 구조 마이닝(Web Structure Mining)
웹 구조 마이닝은 웹 사이트와 웹 페이지의 구조적 요약 정보를 얻는 것을 목표로 한다.
웹 사이트의 구조적 정보란, 웹 페이지 사이의 하이퍼링크(hyperlink)를 통한 그래프(graph) 구조를 뜻한다. 참조(reference) 정보를 이용하는 경우의 예로서 다음과 같은 표준 로그를 살펴보자.
211.104.136.123 - - [17/Apr/2001:12:00:12 +0900] “GET /index.html HTTP/1.1”
200 16674 “/products/tv.html”“Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)”
이 로그를 통해 웹 사이트는 /index.html 에서 /products/tv.html로의 웹 구조를 추출할 수 있다. 이와 같은 방법은 사이트 내에 페이지가 많거나, 여러 사이트를 통합해 운영하는 대규모 웹 사이트, 또는 페이지를 자주 업데이트하는 사이트에서 구조 정보를 얻을 때나, 사이트 관리 등에 응용할 수 있다. 예를 들어, 어떤 페이지는 홈페이지에서 자신을 참조하는 경로가 없을 수 있는데, 이런 페이지는 웹 사이트 사용자가 접근할 수 없는 페이지로 삭제하거나 적당한 링크를 통해 접근할수 있게 해야한다.
나. 웹 내용 마이닝(Web Content Mining)
웹 내용 마이닝은 실제 웹사이트를 구성하고 있는 페이지로부터 의미 있는 내용을 추출하는기법이다. 이는 일종의 정보추출(information retrieval)이라고도 할 수 있고, 텍스트 마이닝(text mining) 기술과도 밀접한 관련이 있다. 다시 말하면 온라인에 있는 방대한 웹 데이터(텍스트, 그림, 사운드 등)에서 유용한 정보를 자동으로 찾는 기술이다. 예를 들어 온라인 여행 전문 사이트에서 다음과 같은 정보를 자동으로 얻을 수 있게 한다.
여행 정보를 제공하는 웹 페이지의 80%는 홍콩에서 마카오까지의 교통수단으로 페리를 타고 여행할 것을 추천하고 있다.
다. 웹 사용 마이닝(Web Usage Mining)
웹 사용 마이닝은 웹 사용자의 사용 패턴을 분석하는 것이다. 이를 통해 웹 사용자의 행동을 접속 통계 정보 이상으로 이해할 수 있고, 또한 웹 페이지의 이용 패턴을 알 수 있게 된다. 결국 이 정보는 사용자에게 더욱 친숙하게 페이지를 재구성하거나, 웹 서버 로드 밸런스, 사용자별 맞춤형 웹 페이지 구성 등에 이용된다.
4. 웹마이닝의 활용
1) 금융
- 은행상품 : 예금안내 및 개인화된 예금 상품 발굴
- 주식매매 : 주식매매 패턴 분석 후 상품 제안
2) 전자상거래
- 홈쇼핑 : 구매 패턴과 구매품 분석을 통한 상품제안
- B2B : 거래 기업의 구매 형태 분석
3) 이러닝
- LMS 정책수립 : 학습자에 대한 개인화 교육 패턴 분석/학습 제안
4) 여행사
- 개인화 여행 제안 : 여행 관심도나 여행 패턴분석을 통해 여행 제안
5) 구인구직
- 추천 서비스 : 유사한 구직 활동을 하는 사용자를 매칭하여, 추천하는 서비스
참고자료
웹마이닝 - DBGuide.net
'인공지능 및 데이터과학 > 데이터분석 & 통계' 카테고리의 다른 글
통계학의 기초적인 용어 (0) | 2017.09.16 |
---|---|
클러스터링(Clustering)을 통한 데이터 분류기법, K-평균(K-Means) 알고리즘 (0) | 2016.10.12 |
통계학, 표준 정규 분포(Standard Normal Distribution) (0) | 2016.09.09 |
표준편차로 판단하는 금융상품의 우열 지수, 샤프지수 (0) | 2016.09.02 |
표준편차가 높으면 좋을까? 나쁠까? (2) | 2016.08.29 |