TF-IDF는 자연어처리에서 가장 기본적이고 가장 많이 활용하는 기술이라 할 수 있으며 그만큼 강력하며 쉽다. TF-IDF는 Term-Frequency와 Inverse Document Frequency의 약어로 되어 있으며, 문서에서 자주 등장하는 문서별 중요 단어에서 다른 문서에서 자주 등장하는 패널티를 빼는 역빈도를 구하여 최종 스코어를 구하게 된다. 이를 예로 들면, 편의점마다 많이 팔리는 물건을 조사하고 싶은데 단순히 매출로만 판단하게 되면 모든 편의점마다 담배가 1위로 올라설 것이다. 이렇게 다수가 나오는 패널티를 빼게 되면 결국 편의점마다 독특하게 등장하는 물건들이 있을 것이고, 이를 토대로 선호 물품과 해당 편의점 주변의 나이대 등을 간접적으로 알수도 있을 것이다. TF-IDF로 가장 많이 ..