엘라스틱 서치(Elasticsearch)를 써야 하는 8가지 이유

    엘라스틱 서치를 써야 하는 8가지 이유


    Schemaless와 문서지향


    엘라스틱 서치는 JSON 구조를 사용하여 기존의 RDMS와 같은 엄격한 구조를 적용하지 않는다. 비정형 데이터는 비구조적이며, 스키마(Schema)가 다이나믹하게 변할 수 있다. 전통적인 관계형 구조로 구성할 경우 프로젝트 막바지에 모든 스키마를 변경하고, 데이터를 다시 구성하는 문제에 봉착할 수 있는데 JSON 구조는 이런 문제들을 사전에 막을 수 있다.


    또다른 장점으로 데이터 공간을 절약할 수 있다. 컬럼을 동적으로 정의하여, 필요한 데이터만 넣게 되어 데이터 공간 및 CPU 사용량, 네트워크 트래픽도 줄일 수 있는 효과를 볼 수 있다. 아래의 예시를 한번 보도록 하자



    데이터 예시 1

    {

    "title":"엘라스틱에 대하여",

    "author":"강철의 기술사",

    "date":"2020-04-20"

    }


    위와 같이 title, author, date 필드(DB로 따지면 컬럼)으로 된 한개의 데이터가 있다. JSON은 다음과 같이 구조를 유연하게 만들 수 있다.


    데이터 예시 2

    {

    "title":"동해물과 백두산이 마르고 닳도록...",

    "author":"안익태",

    "date":"2020-03-10",

    "type":"음악"

    }


    다음과 같이 하나의 공간에서 type이라는 컬럼을 추가할수도 있다. 일반적인 database구조였다면 첫번째 예시에도 type를 만들어야 하고, 공백이라도 넣어야 되겠지만 JSON 구조로 만든 것들은 모두 독립적인 데이터 구조를 가져도 문제가 없다. 물론 이로 인해서 개발자들이 힘들어 하는 경향이 있지만, 그것도 어디까지나 포맷을 잘 맞추고 파싱 방식을 잘하게 되면 이 방식에 큰 문제를 느끼지 않게 된다.


    누구는 DB의 트래픽 역시 마찬가지로 줄일 수 있다는 식의 얘기로 정규화, 조인등을 말할 수 있을 것이다. 그러나 그렇게 구성을 만들 경우 DB 설계를 처음부터 다시 할 수 있으며 DB의 조인등의 연산으로 인해서 DB에서의 CPU 사용률 부하는 필연적으로 있을 수 밖에 없다.



    검색능력(Searching)


    엘라스틱서치는 기본적으로 검색엔진이다 그렇기에 검색 기능 뿐만 아니라 특히 Full-text 검색 능력이라는 강력한 기능을 탑재하고 있다. 예를 들어 구글 사이트에서 문장을 입력하여 연관된 문서, 이메일 그리고 문서 파일등을 출력하고 싶으면 어플리케이션에 Elastic Search를 설치하는 것이 매우 쉬운 방법이 될 것이다.



    이것은 개발자들이 흔히 사용하는 관계형 데이터베이스(ex: Oracle, Mysql)의 문자열 컬럼에 대해 실행되는 단순한 SQL 질의와는 상당히 다르다. (ex: like 쿼리) 기본적으로 엘라스틱은 검색을 할 수 있는 Term(의미의 최소단위)로 단어의 형태소 분석을 수행하고, 이 단어들과 연관된 문서를 매핑하여 검색을 시켜주는 개념으로 문서를 통째로 like 검색하는 DB와는 구조적으로 다르다(DB는 형태소 분석을 하지 않음)



    분석(Analytics)

    엘라스틱서치를 탑재한 만든 사이트에 접속하는 사람들의 OS가 무엇인지, 혹은 어느 나라에서 접속했는지 등을 알고 싶을 때 엘라스틱의 분석 기능을 사용하면 편리하게 알 수 있다.



    풍부한 API와 REST 지원

    엘라스틱은 기본적으로 Java, C#, Python, PHP, Javascript, Ruby, Perl 등 20개의 프로그램 언어를 지원하며, 기본적으로 Elasticsearch는 REST API를 제공하여 REST API를 사용하는 모든 언어에서 HTTP 형식으로 사용할 수 있다.



    쉬운 작동, 쉬운 확장

    single node instance로 작동을 하며, 수백개의 스케일 아웃을 쉽게 할 수 있다. Elasticsearch는 대부분의 빅데이터 플랫폼들이 그러하듯 Vertical Scaling보다 Horizontal Scaling을 사용한다.


    Vertical Scaling은 CPU 및 CPU Cores를 늘리거나, 메모리, 저장장치 등을 늘려서 한대의 서버의 성능을 올리는 것을 말하며 Horizontal Scaling은 같은 타입의 서버들을 분산하여 늘리는 방식으로 비용적인 측면과 확장적인 측면에서 일반적으로 Vertical 방식보다 효율적이고 효과적이다



    Near real-time(근접 실시간)

    검색엔진은 기본적으로 형태소를 분석하고 색인을 해야 하는 시간이 다른 DBMS보다 오래 걸린다. 엘라스틱 역시 데이터를 삽입한 순간 약 몇초정도는 이 단계를 지나며 그 후 검색을 할 수 있다. 



    Lightning-fast (빠른 속도)

    엘라스틱 서치의 DNA는 Lucene(Java 기반의 검색엔진 라이브러리)이기 때문에 단어 입력후 문서를 찾는 속도가 다른 NoSQL들에 비해 매우 빠르다.



    Fault-tolerant (내고장성)

    노드 실패시 replicate된 다른 노드에서 데이터를 가져오며, 네트워크 실패 시 다른 마스터 복제본으로 선택한다.



    해당 내용은 Learning Elastic Stack 7.0을 참고하였고 필자의 생각을 포함하여 적었습니다. 책에서는 엘라스틱의 매우 좋은 부분들을 다뤘습니다. 당연히 엘라스틱을 공부하는 사람에게 부정하는 글을 적을 수 없을테고 일반인들은 다른 검색엔진을 다뤄본적이 없으니 오로지 Elasticsearch vs 일반적인 DBMS로 구도를 잡게 됩니다.


    그러나, 필자는 검색엔진 업체에 약 8년간 근무를 하면서 얻은 경험과 엘라스틱 서치를 써서 한때 크게 낭패를 봤던 경험을 복합하여 말하자면 케이스 바이 케이스입니다. 즉, 상용 검색엔진을 사용할 수 있으면 사용하는 것이 좋고, 만약에 비용 문제로 모든 서버에 상용 검색엔진을 들일 수 없다고 한다면 리스크가 적은 곳에 엘라스틱 서치를 사용하는 것이 좋습니다.


    엘라스틱의 가장 큰 문제점은 바로 Java 기반으로 만들어졌고, 태생이 Lucene 입니다. 누구는 속도가 빠르다고 하는데 검색엔진에서 속도를 좌지우지하는 것은 바로 엔지니어의 역량 및 형태소 분석 속도입니다. C/C++ 기반의 다른 상용 검색엔진보다 엘라스틱이 더 빠를 순 없습니다. 엘라스틱이 만약에 더 빠르다면 여러가지 기능들이 빠져 있다는 거죠. 이는 뭐랑 비교하는 것과 같다면, 제가 만든 하루만에 만든 심플한 검색엔진이 엘라스틱서치보다 빠르기에 제것이 더 좋다라는 궤변과 같습니다.


    상용 검색엔진은 동사무소의 홈페이지에 넣어도 1천~2천만이 훌쩍 넘는 고가의 엔진입니다. 그런 상용 엔진과 엘라스틱의 성능을 비교하는 것 그리고 특히 해외 검색엔진과 형태소를 분석하기 위한 단어의 개수만 수백만개를 가지고 있는 검색엔진과 비교하는 것은 무리가 있을 것입니다.


    그러니 머리속에서 엘라스틱 서치가 최고의 솔루션이다라는 환상에서 벗어나는 것이 좋습니다. 물론 상용 검색엔진을 다루기 힘든 분들에게는 최고의 선택이 될 수 있겠지만 말입니다.



    참고자료

    Learning Elastic Stack 7.0 Second Edition


    댓글

    Designed by JB FACTORY