오래전부터 한국의 IT 분야에서는 크롤러(Crawler)를 일반적으로 크롤링(Crawling)과 스크래핑(Scraping)을 모두 포괄하는 의미로 사용이 되었으나 최근 들어, 크롤링과 스크래핑을 분리해서 사용하는 경우가 많고, 실질적으로 프로젝트를 할 땐 크롤링보단 스크래핑을 더 많이 하기에 이제는 확실히 분리해야 될 것 같아서 용어를 정리해보고자 한다. 웹 크롤링(Web Crawling) 웹 크롤링은 크롤러(Crawler)라는 봇(bot)을 이용하여 페이지의 정보를 인덱싱하는 것인데 주로 검색엔진이 사용하는 경우가 많다. 사실 웹크롤러와 웹 스크래핑이 둘다 사용하는 경우는 우리가 보통 어떤 사이트의 게시물을 크롤링할 때 특정 게시물이 신규로 등장했는지 여부를 확인하기 위해서 게시물 리스트의 정보를 크롤..
자바에서는 사이트 데이터를 읽기 위해서 기본적으로 라이브러리들을 제공하고 있다. 그 중 2가지의 대표적인 방식을 포스팅에 적어보고자 한다. 사이트 데이터를 읽는다는 것은, 특정 URL(ex: www.naver.com)을 입력하였을 때, HTML(Hyper Text Markup Language), JSON(JavaScript Object Notation), XML(Extensible Markup Language), OpenAPI 등의 데이터를 읽어 들인다는 것을 의미한다. 이렇게 다른 사이트의 데이터를 읽어와서 자신만의 데이터베이스를 구축하는 경우가 많은데, 물론 이것을 서비스 하는 것은 법적으로 문제가 있을 수 있겠지만 이 데이터로 무언가를 분석하거나, 2차적인 아이디어를 구축하는 경우가 많다. Type..