성향분석(Personality Anaysis)의 연구 배경 및 목적

    현재 대기업들이 빅데이터 시장에 과감하게 투자를 하고 있다. Infra, S/W, Service 등 3가지고 분류하고 있는 빅데이터 분야 모두 성장할 것으로 전망하고 있으며, 미국 지디넷(ZDNET)은 빅데이터 및 분석 시장이 2019년까지 1,879억 달러 규모로 성장할 것이다라고 할 정도로 장밋빛 전망을 하고 있을 정도이다.


    이처럼 빅데이터는 생소했던 2011년 부터 앞으로의 미래까지 기업들이 끊임없이 투자하는 분야로 자리 잡게 될 것이다. 


    source, Forecast of Big Data market size, based on revenue, from 2011 to 2027 - Statista 재편집


    빅데이터의 끊임없는 발전과 동시에 다양한 빅데이터 분석이 발전되기 시작하였는데 그 중에서 최근에는 개인화가 화두가 되면서, 성향 분석이 매우 빠르게 발전하고 있다. 이러한 성향 분석은 기업의 솔루션 형태로 발전하거나 서비스에 녹이는 방식으로 많은 시도를 하고 있는데 대표적으로 넷플릭스(Netflix)의 추천 서비스, 구글(Google)의 애드센스(Adsense) 광고 분석, 그리고 솔루션으로는 IBM의 왓슨(Watson)등이 있다.



    성향분석을 시도하는 글로벌 기업 및 서비스


    가. 넷플릭스의 구독자 성향이 들어간 추천 서비스



    넷플릭스는 성향을 가장 잘 분석하여 서비스하는 기업으로 컨텐츠의 내용과 구독자의 행동등을 분석하여 구독자의 성향을 알아내고 적절한 컨텐츠를 추천하여 고객이 끊김없이(Seamless) 컨텐츠를 볼 수 있게 불필요한 검색을 막아준다



    나. 구글의 광고 분석


    애드센스의 경우 콘텐츠과 구독자의 성향등도 분석하여 적절한 광고를 보여줄 수 있게 최적화된 맞춤 광고 서비스를 보여준다. 




    다. IBM 왓슨


    왓슨의 경우는 위 사례와는 약간 다르다. 구글과 넷플릭스는 자사의 제품에 녹인 "서비스"라고 한다면, IBM의 경우는 제품을 팔기 위한 솔루션 관점이다. 그렇기 때문에 특정 서비스가 아닌 왓슨은 해외에서 이미 다양하게 서비스가 되고 있다.



    국내에서는 SK와 협력을 맺고 있으며, 현재 SK에서 하고 있는 갖가지 A.I가 대부분 IBM Watson 기반이라 할 수 있다. SK 에이브릴(Aibril) 같은 경우 Watson의 한국판이라고 이해를 하면 되는데 왓슨을 커스터마이징하여 서비스를 하는 것이라 이해해도 무방할 것 같다.




    성향분석의 분석 기법


    성향분석은 나랑 유사한 행동을 하는 사람을 찾아내어 서비스하는 CF(Collaborative Filtering, 협업 필터링) 이나 통계학적 기법을 활용하여 분석을 하는 방법도 있지만, 최근에는 소셜 미디어의 발달로 트위터나 블로그, 페이스북 등에 올린 자료를 분석하여 성향을 분석할 수 있다.


    소셜미디어를 분석하기 힘들면, VoC 등으로 성향 분석을 시도하는 기업도 있지만 데이터가 크지 않기 때문에 SNS만큼 파급력이 있지는 않다. 국내같은 경우는 SNS 데이터에 상당히 민감하고, 최근 대선 스캔들로 SNS가 사용된 사건이 있는 만큼 사용에 문제가 있을 순 있다.


    CA Facebook 스캔들에 관련된 워드 클라우드


    이번에 하려는 성향 분석 연구는 행동 기반이 아닌, 비정형 텍스트 기반으로 분석을 진행하려 한다. 그 대상은 자기소개서를 기반으로 성향을 분석하는 것이기 때문에 사실 상 데이터를 수집하는 것은 기업의 입장에서는 문제가 될 소지는 없다. 이미 해당 기업에 입사를 한다는 것은 내 자기소개서를 기업에게 공개한다는 것과 일맥상통하고, 기업의 데이터 축적에 문제가 될 부분은 없을 것이다.



    장애물이 될 연구의 내용


    데이터는 어느정도 충족이 된다 하더라도, 문제가 되는 것이 있다. 데이터를 학습하려면 라벨링(Labeling)이라는 과정을 수행해야 한다. 즉, 합격 자기소개서를 제대로 라벨링해야 올바른 결과가 나온다는 것이다. 그렇다보니 많은 성향분석 시스템이 여기서 막혀서 다른 방법으로 턴하는 경우가 종종 보이고 있다.


    예를 들어, 성향분석을 시도하지 않고 "합격 여부만 알려주는 서비스"라던지 "질문에 적합한 답을 했는지를 알려주는 서비스" 등과 같이 이미 합격과 불합격을 기반으로 라벨링이 되어 있는 자기소개서 성향 분석을 시행하고 있다. 


    추가로 생길 수 있는 문제점은 바로 형태소 분석의 문제이다. 비정형 텍스트의 분석에서 가장 중요한 첫걸음은 완벽하게 형태소 분석이 되었는가이다. 형태소 분석은 여기서 기초 데이터를 쌓는 과정과 같다. 기초 데이터 자체가 잘못되어 있으면, 다음의 분석은 무의미한 것과 동일하기에 가장 심혈을 기울여서 형태소 분석을 해야 될 것이다.



    댓글

    Designed by JB FACTORY