오래전부터 한국의 IT 분야에서는 크롤러(Crawler)를 일반적으로 크롤링(Crawling)과 스크래핑(Scraping)을 모두 포괄하는 의미로 사용이 되었으나 최근 들어, 크롤링과 스크래핑을 분리해서 사용하는 경우가 많고, 실질적으로 프로젝트를 할 땐 크롤링보단 스크래핑을 더 많이 하기에 이제는 확실히 분리해야 될 것 같아서 용어를 정리해보고자 한다. 웹 크롤링(Web Crawling) 웹 크롤링은 크롤러(Crawler)라는 봇(bot)을 이용하여 페이지의 정보를 인덱싱하는 것인데 주로 검색엔진이 사용하는 경우가 많다. 사실 웹크롤러와 웹 스크래핑이 둘다 사용하는 경우는 우리가 보통 어떤 사이트의 게시물을 크롤링할 때 특정 게시물이 신규로 등장했는지 여부를 확인하기 위해서 게시물 리스트의 정보를 크롤..
트렌드 변화 최근 들어서 Yaml, Yml이라는 포맷이 자주 활용되는 것을 보고 있으면, 개발의 트렌드가 빠르게 변화하는 것을 알 수 있다. 물론 이 트렌드는 개발자의 트렌드하고도 맞닿아 있다. 최근에 개발을 공부해서 개발자가 된 사람들을 보면 남들이 어떻게 코딩을 하는지 그리고, github의 흐름이 어떻게 되는지 또 대규모적인 개발에서 마이크로아키텍처로 변화하는 것을 볼 수 있다. 마이크로 아키텍처의 흐름은 Spring에서 Spring boot로 넘어가게 되었고, 이는 전자정부프레임워크(Egovframework)라는 거대한 프레임워크를 탈피하려는 움직임과 같다. 사실 전자정부프레임워크만 하는 사람 입장에서는 이게 뭔 X소린가 싶을 수도 있지만 지금 연구쪽에서는 yaml과 gradle과 같은 설정 포맷..
데이터를 공부하거나 컴퓨터 자격증을 공부하면서 나오는 단어 중에 정형/비정형/반정형 데이터라는 것이 자주 등장하게 된다. 정형 데이터와 비정형 데이터의 차이점은 알겠지만 반정형이라는 말이 들어가면서 헷갈릴 수 있는데 반정형을 反으로 해석해버려서 반정형 = 비정형으로 인식하는 경우가 종종 있다. 정형 데이터(Structured data) 정형 데이터는 데이터베이스의 정해진 규칙(Rule)에 맞게 데이터를 들어간 데이터 중에 수치 만으로 의미 파악이 쉬운 데이터들을 보통 말한다. 예를 들어, Gender라는 컬럼이 있는데 여기서 male, female이라는 값이 들어간다면 누가 봐도 그 값은 남자, 여자라는 것을 쉽게 인식할 수 있고, Age에 25 혹은 40과 같은 숫자가 들어가도 사람들은 쉽게 그 값을 ..
What do “branch”, “tag” and “trunk” really mean? Trunk would be the main body of development, originating from the the start of the project until the present. Branch will be a copy of code derived from a certain point in the trunk that is used for applying major changes to the code while preserving the integrity of the code in the trunk. If the major changes work according to plan, they are usua..
High Water Mark 개념 HWM(High Water Mark)은 테이블의 라이프 사이클에서 사용된 블록을 표시하기 위해서 사용되는 용어입니다. 모든 DB가 사용하지 않으며, 대표적으로 오라클(Oracle)에서 사용하는 용어입니다. 기본적으로 HWM은 데이터의 가장 오른쪽(가장 최신)에 있는 블록을 뜻합니다. 그럼 이게 무엇이 중요한가? 바로 데이터가 많아지면 많아질수록 HWM의 개념이 중요지기 시작합니다. 데이터를 Delete 데이터를 삭제(Delete)하면 그 데이터는 어떻게 될까요? 우리 머리속에서는 그 공간을 쏙 없애버릴 것 같지만 사실은 그 공간을 비운채로 지나가게 되어 있습니다. 마치 현생으로 생각하면 빈집들이 있는 것처럼 구멍이 뽕뽕 뚫려버린 공간이 생기는 것이죠. 문제는 이 놈들도 ..