티카(Tika)는 아파치 재단에서 운영하는 문서 필터링 프로젝트이다. 워드(Doc)나 PDF, PPT 등 문서형태의 파일에서 내용을 추출하는 프로젝트로 오래된 만큼 괜찮은 성능을 보여준다. 라이브러리 추가(maven) org.apache.tika tika-core 1.26 org.apache.tika tika-parsers 1.26 org.apache.poi openxml4j 1.0-beta org.apache.poi poi-ooxml 3.9 티카 라이브러리만 설치하면 에러가 발생하는데 아래의 2가지 openxml4j와 poi-ooxml을 설치하면 이 문제를 해결 할 수 있다. 샘플 예제 import org.apache.tika.metadata.Metadata; import org.apache.tika...