내멋대로 기계독해(MRC) - Intro 끄적임 #1

    기계독해(MRC)란 컴퓨터에게 질문을 던졌을 때 답을 하는 매우 인공지능스러운 분야이다. 그러나 기계독해라는 것이 한글 기준으로 참 지랄맞은 부분이 있기 때문에 포스팅을 하면서 생각의 정리를 하고자 한다. 

     

    처음에 BERT를 봤을 때는 참 만능처럼 보였고, Step by Step으로 KorQuad를 진행하였을 때 뭔지도 모른 상태로 남들이 하라는 대로 하였다. 내 머리속에 기계독해는 문서를 던지면 문서를 통째로 읽고 다음에 질문을 던지면 답변을 하는 녀석으로 생각했지만 KorQuad의 Training 셋을 보면서 의문을 갖게 되었다.

     

    해당 데이터는 문장, 질문, 답변이 세트로 되어있었기 때문이다. 그러다보니 "이 training set은 어떻게 만들지?"라는 의문이 생겼고 저 부분이 기계독해를 만드는데 가장 큰 장애라는 것도 알게 되었다.

     

     

    기계독해 학습데이터 형태

    Context : 동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세
    Question : 보우한 사람은 누구인가?
    Answer : 하느님

     

    기계독해를 만드는 방법은 현재 BERT를 기반으로 하는 수많은 변형 모델들이 Squad를 점령하였는데 사실 Squad라는 대회에서는 training set을 제공하기에 BERT 이전의 수많은 작업들을 사람들이 깨닫지 못하고 기계독해를 매우 쉽게 만들 수 있을거라 생각한다(필자 역시 그중에 하나)

     

     

    결과적으로 기계독해에서 가장 중요하고 힘든 부분은 traning set을 만드는 것이다. 나머지 대답을 찾는 과정이야 잘 만든 training set을 여러가지 방법으로 학습하여 제공해도 크게 상관 없다. 단지 BERT 모델이 꽤나 잘 찾는다는 것일 뿐...

     

    그래서 내멋대로 MRC를 만들어보고자 한다. 퀄리티가 지랄 맞겠지만 MRC가 어느정도 되는 선에서 한사이클을 끝내고, 그 이후 보다 고귀한(?) 방법으로 진행을 하고자 한다. 

     

    댓글

    Designed by JB FACTORY