Word2Vec로 구현할 수 있는 서비스는 무궁무진하다. 분류, 연관키워드와 같은 직접적인 서비스를 구현할 수도 있으며 최종 서비스를 위한 전처리 과정에서도 활용될 수 있다. 참고로 이 포스팅은 이전에 작성한 Word2Vec #2, 기본적인 모델 구현(생성)하기에서 만든 모델을 기반으로 설명이 이어진다. Word2Vec Source Code from gensim.models import Word2Vec model_okt = Word2Vec.load('word2vec_okt.model') 코모란 버전과 Okt 버전 모두 모델을 만들었지만, 이번 포스팅에서는 Okt 버전만 사용해보도록 한다. # 단어 벡터 확인 print('영웅 : ', model_okt.wv['영웅']) 벡터가 잘 뽑혔는지 확인하기 위해서..
우선 워드투벡터(Word2Vec)를 구현하기에 앞서 이 포스팅에 사용된 예제는 네이버 영화 리뷰 데이터이다. 네이버 영화 리뷰 데이터는 직접 github에 들어가서 데이터를 다운로드 받아서 특정 폴더에 저장한 후 사용하는 방법과 파이썬을 실행 하는것과 동시에 다운로드를 받는 2가지 방법이 존재한다. 여기서는 github에 있는 데이터를 파이썬을 실행할 때 접근하여 가져오는 방식을 사용하도록 한다. 네이버 영화 리뷰 데이터 e9t/nsmc Naver sentiment movie corpus. Contribute to e9t/nsmc development by creating an account on GitHub. github.com 위 링크에 들어가면 네이버 영화 리뷰에 대한 자세한 설명이 있으며, 샘플로..
Word2Vec를 이해하기 전에 우선 희소 표현과 분산 표현에 대한 이해를 하지 못했다면 아래의 포스팅을 보고 표현들의 개념을 익히길 권장한다. 희소 표현과 분산 표현, 차원의 저주 희소 표현과 분산 표현, 차원의 저주 희소 표현(Sparse Representation) 희소 표현(Sparse Representation)이란 데이터가 희소(부족)한 형태를 띄는 것을 말한다. 즉 대부분의 값이 0인 경우를 뜻하며, 원핫 인코딩(One Hot Encoding)이 대표적인 예.. needjarvis.tistory.com 워드투벡 혹은 워드투벡터는 분산 표현을 만들기 위해서 가장 많이 활용하는 강력하고 범용적인 단어 임베딩(Word Embedding) 모델이다. 구글(Google)에서 2013년에 발표했으며, ..
희소 표현(Sparse Representation) 희소 표현(Sparse Representation)이란 데이터가 희소(부족)한 형태를 띄는 것을 말한다. 즉 대부분의 값이 0인 경우를 뜻하며, 원핫 인코딩(One Hot Encoding)이 대표적인 예이다. 원핫 인코딩(One-Hot Encoding) 개념과 구현해보기 원핫 인코딩(One-Hot Encoding) 개념과 구현해보기 사람과 컴퓨터는 데이터를 바라보는 형태가 다르다 인간과 컴퓨터는 데이터를 바라보는 형태가 다르다 사람은 어떤 물체를 보더라도 숫자로 인식하지는 않지만 컴퓨터에게 인공지능을 구현시 needjarvis.tistory.com 희소표현이 구현하기에는 매우 편리하지만, 몇몇가지 약점들이 있다. 우선 Feature가 많아질수록 데이터 ..