기계독해(MRC)는 만드는 사람 맘이기 때문에 사실 다양한 방법들이 존재한다. 챗봇을 하나 만들어도 다양한 기법들이 존재하는 것처럼 챗봇과 본질적으로 유사한 기계독해 역시 마찬가지이다. 다만 기계독해는 문서를 기반으로 공부를 해야 한다는 차이가 있을 것이다. 기계독해 타입들 아래는 필자가 생각하는 기계독해의 타입들이라 생각한다. 물론 다양한 기법들이 존재하지만 대표적으로 몇가지만 끄적여 보았다. 1. 학습없이 진행하는 실시간 타입 가. 질문에 해당하는 가장 유사한 문장을 찾기 나. 해당 문장에서 가장 적합한 답변을 추출하기 이렇게 적으니 엄청 심플해 보인다. 엄청 간단해보이지만, 사실 위 내용을 구현하기 위해서는 인덱스를 추출하고 어느정도 의미를 추출해야만 가능하다. 2. 질문과 문장을 학습한 나름 딥러..
기계독해(MRC)란 컴퓨터에게 질문을 던졌을 때 답을 하는 매우 인공지능스러운 분야이다. 그러나 기계독해라는 것이 한글 기준으로 참 지랄맞은 부분이 있기 때문에 포스팅을 하면서 생각의 정리를 하고자 한다. 처음에 BERT를 봤을 때는 참 만능처럼 보였고, Step by Step으로 KorQuad를 진행하였을 때 뭔지도 모른 상태로 남들이 하라는 대로 하였다. 내 머리속에 기계독해는 문서를 던지면 문서를 통째로 읽고 다음에 질문을 던지면 답변을 하는 녀석으로 생각했지만 KorQuad의 Training 셋을 보면서 의문을 갖게 되었다. 해당 데이터는 문장, 질문, 답변이 세트로 되어있었기 때문이다. 그러다보니 "이 training set은 어떻게 만들지?"라는 의문이 생겼고 저 부분이 기계독해를 만드는데 가..