[데이터수집] 포스팅 크롤링하기 #1 (전략편)

오늘부터 티스토리(Tistory)의 데이터를 크롤링(Crawling)을 한 후, 추후 이 데이터를 기반으로 데이터를 분류(Classification), 회귀(Regression) 분석 등에 활용할 예정이다. 다양한 언어에서 데이터를 수집할 수 있지만, 필자는 자바(Java)언어가 베이스이기 때문에 데이터 수집과 전처리 단계에서는 자바를 활용할 예정이고, 데이터 분석은 파이썬(Python)과 R등을 이용해서 분석을 할 예정이다.

물론, TF-IDF나 나이브베이즈(Naive Bayes)같은 경우는 자바로도 충분히 쉽게 코딩하여 만들 수 있기 때문에 직접 코딩을 하면서 알고리즘을 설명하는 시간도 가질 예정이다.

티스토리 API 이해

우선 티스토리의 데이터를 크롤링하기에 앞서, 티스토리에서 제공하는 API를 이해하며 어떤 전략으로 데이터를 수집할 것인지 고민을 해야 한다. 그리고 API는 1일 한정된 양을 사용할 수 있기 때문에 어떻게 해야 더 효과적인 데이터를 가져갈 수 있을지 전략을 잘 수립해야 한다.

위 스크린샷은 티스토리의 API 목록들이 담겨져 있다. 글과 카테고리, 댓글등이 존재하며, 검색에 관련된 내용은 존재하지 않는다. 즉, 티스토리의 API는 미리 어떤 블로그를 수집할 것인지 지정을 해야 한다는 것이다.

수많은 티스토리 목록이 있으면 상관이 없겠지만, 그걸 일반 유저들이 가지고 있을리 없고 결국 우리는 수집해야 할 티스토리 아이디 리스트가 필요하다. 이 부분은 네이버 검색을 이용해서, 네이버 검색에 있는 티스토리 아이디를 관리하게 될 것이다.

수집할 구조 전략

필자가 수집할 카테고리 구조는 "Category(대분류), Division(중분류)"이며, 이 값은 티스토리에 지정된 값과 동일하다.

현재 티스토리는

라이프, 여행 맛집, 문화 연예, IT, 스포츠, 시사, 이벤트

라는 대분류가 존재하고, 각각 여러개의 중분류값들이 존재한다. 글에 분류 값이 없으면 수집하지 않고 Pass 하여 오직 사용자가 분류한 것만 수집한다.

다음 포스팅은 티스토리를 포스팅하기 위한 카테고리별 단어 선정 및 카카오(Kakao) API를 활용하여 티스토리를 찾고, 별도의 파일에 기록을 하는 것을 설명과 함께 코드로 보여줄 것이다.

저작자표시 비영리 동일조건 (새창열림)

'인공지능 및 데이터과학 > 자연어처리' 카테고리의 다른 글

[Java] 자바로 한글 자모(초성,중성,종성) 분리(추출)하기 (+개념) (0)	2021.01.12
[Java] 자바 아스키코드및 유니코드로 문자 변환 (0)	2021.01.12
형태소 분석의 개념과 konlpy로 사용 하기 (0)	2021.01.10
[Python] 파이썬을 이용한 자모(초성/중성/종성) 분리 및 결합하기 (0)	2020.12.22
자바(Java) 숫자, 영문, 한글 여부를 체크하는 방법 (0)	2018.06.20

Sidebar - Right

블로그 정보

Steele

IT, 인공지능, 빅데이터, 블록체인, 정보처리기술사 그리고 과학 관련 포스팅을 적는 블로그입니다.

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

자비스가 필요해