[GPT] ChatGPT와 GPT 이해하기 #1
GPT에 관련된 글들 중 어떤 것을 적을까? 고민을 많이 해봤는데 결국은 ChatGPT에 대한 정보와 나만의 인사이트에 대해서 적어보는 것이 좋을 것 같습니다. ChatGPT가 제 2의 알파고 쇼크를 줬기 때문에 엄청난 지각변동이 일어나고 있고, 수많은 사기꾼들과 협소한 인사이트로 어설픈 미래를 제시하는 사람들이 많을 것이기 때문입니다.
포스팅의 내용이 길어질거라 생각해서 이번 포스팅은 GPT에 대한 개념, 역사, 버전별 정보등을 적고 다음 포스팅에서는 GPT로 일어나게 될 지각변동 등에 대해서 적어보도록 하겠습니다.
ChatGPT란?
우선 ChatGPT에 대해서 설명을 하자면, 일론 머스크가 비영리 단체로 만든 Open AI에서 만들었으며 중간에 일론 머스크가 Open AI에서 손을 뗀 후, MS가 많은 투자를 해서 현재의 ChatGPT가 만들어지게 되었습니다. 정확히 ChatGPT는 GPT 3.5 이상의 모델로 만든 OpenAI의 "서비스"라고 보면 되며 GPT 3.5 이상이다라고 이해하셔도 크게 다르지 않습니다.
그럼 ChatGPT를 이해하기 위해서는 GPT를 먼저 이해해야 할텐데요. GPT의 시작은 2017년에 등장한 어텐션(Attention) 신경망 기반의 트랜스포머(Transformer)라 불리는 자연어처리의 센세이션 모델에서 비롯됩니다. 트랜스포머가 등장한 이후 정체되어 있던 인공지능 씬은 트랜스포머를 활용하여 여러가지의 새로운 모델 및 서비스들이 등장하게 되는데 그 중 하나가 GPT이고 GPT와 반대되는 기술로 버트(BERT)가 있습니다.
마치 트랜스포머라는 유명한 사부 밑에서 수제자 2명(BERT, GPT)이 등장하게 된 것도 같은데 각각은 트랜스포머의 어텐션 모델에서 BERT는 인코더만 사용하고, GPT는 디코더만 사용하여 특화시켜 발전해 나가는 모습을 보여줍니다.
초창기 GPT는 데이터를 생성해내는 놀라운 모습 때문에 사람들이 충격을 받았으나, 지금처럼 완벽에 가까운 수준이 아니었기 때문에 의미가 있다 수준이었고 서비스에 적용하기 힘들었지만, BERT는 놀라운 수준으로 자연어처리 씬에 지대한 공을 끼칩니다. 사실 지금 GPT로 일어난 센세이션 이전에는 BERT가 그 자리를 꿰찼으며, 어느순간 초거대 데이터를 제공하는 GPT로 모든 것이 넘어가게 된 것 뿐입니다.
GPT의 변화 과정
위와 같이 초창기에는 구글(Google)이 제안한 BERT 모델이 잘 나갔지만, GPT는 끈기 있게 더 많은 데이터와 더 많은 파라미터로 승부를 보기 시작합니다. 지금 생각해보면, 이렇게 학습을 한다는 생각 자체가 소름이 돌 정도니까요.
GPT-1
GPT-1은 2018년에 발표되었으며, 약 117M개의 파라미터를 이용하여 텍스트 생성, 질의응답, 언어 이해 등의 태스크를 수행합니다.
GPT-2
GPT2는 다음해인 2019년에 발표되었으며, 1.5B개의 파라미터를 가지고 더욱 발전된 텍스트 생성 능력을 보여줬습니다. 사실 GPT-2까지는 이런 기술들이 지금 인공지능 세계에 있구나 정도였지만, 다음 버전인 GPT-3부터는 퀄리티가 엄청나게 증가되면서 서비스에 하나둘 접목하는 기업들이 속속 등장하게 됩니다.
GPT-3
GPT3는 2020년에 발표했으며, 175B개의 파라미터를 가지고 기계 번역, 대화형 AI, 질의응답, 텍스트 생성 등 다양한 태스크를 수행할 수 있으며 일부 태스크에서는 인간 수준 이상의 성능을 보이기 시작합니다.
GPT-3의 등장으로 국내의 가장 큰 데이터를 처리하는 양대 기업인 네이버와 카카오는 GPT 기반의 서비스를 만들게 되었고 네이버는 상업용 모델(HyperClova)로 서비스를 운영하고 카카오는 KoGPT라는 모델을 오픈으로 공개를 합니다. GPT3 기반으로 국내에서는 네이버가 먼저 내놨기 때문에 카카오에서는 오픈모델로 내놓지 않았을까 생각합니다.
네이버, 카카오 이외에도 SK 역시 GPT-3 모델(ko-gpt-trinity)을 내놓았지만, 네이버와 카카오와 만큼의 영향력은 없다 생각합니다.
GPT-3.5
GPT-3.5는 ChatGPT를 만들 때 등장한 모델로 사실 GPT-3와의 차이보다는 서비스 측면에서 발전한 모델이라 보셔도 무방합니다. 즉, 기존의 GPT 모델들은 자체적으로 무거워지면서 성능이 높아진 반면 GPT-3.5는 3.0보다 다양한 서비스를 구현해 낼 수 있게 만들어서 더 범용적으로 쓸 수 있다 생각하면 될 것 같습니다.
다만 데이터적으로 봤을 때, 2020년에 발표한 GPT-3보다는 2021년 6월까지의 데이터를 꾸준히 학습하였기 때문에 순수 모델로 봤을 때에도 GPT-3.5가 GPT-3보다 단단하다는 것을 두말할 것도 없을 것 같습니다.
GPT-4
그동안 텍스트만 처리하던 GPT 모델에서 이제는 멀티모달 AI가 되면서 진정한 자비스가 된 것이 GPT-4입니다. 현재 OpenAi는 GPT-4에 대한 정보를 함구하고 있기 때문에 사람들이 추측만 할 뿐인데 100조개의 파라미터를 학습할거라는 것은 OpenAI CEO인 샘 알트먼이 엉터리(ridiculous)라고 말하게 되면서 터무니없던 낭설로 끝이 났습니다.
GPT-4는 단순히 멀티모달로 성능이 올라간 것 뿐만 아니라 성능적인 측면도 엄청나게 올라갔는데요. 미국 변호사 시험에서 하위 10%의 성적을 냈던 GPT-3.5와 달리 GPT-4는 상위 10%의 성적을 보여준 것입니다. 문제는 현재 이에 걸맞게 서비스에 접목하려면 엄청나게 비싼 비용과 느린 속도를 보여주기에 많은 기업들이 GPT-4를 적극적으로 도입을 하게 될지는 의문입니다. 그에 반해 ChatGPT Plus라는 서비스를 유료 구독할 경우 사용이 가능하기 때문에 ChatGPT 형태로 사용하는 사람들에게는 축복인 것 같긴 합니다.