반응형
TfidfVectorizer와 Cosine Similarity를 이용한 한국어 텍스트 유사도 계산 방법
Python/자연어처리 & 형태소 분석기2023. 11. 10. 05:35TfidfVectorizer와 Cosine Similarity를 이용한 한국어 텍스트 유사도 계산 방법

TfidfVectorizer를 사용하여 텍스트를 벡터로 변환한 후(이때 형태소 분석기 Okt를 추가로 사용합니다) , cosine_similarity를 사용하여 벡터간 유사도를 계산합니다. 2023. 11. 08 최초작성 윈도우에 KoNLPy 설치하는 방법은 아래 포스트를 참고하세요. 윈도우에 KoNLPy 설치하는 방법 https://webnautes.tistory.com/1956 추가로 sklearn를 설치합니다. pip install scikit-learn from konlpy.tag import Okt from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similar..

반응형
image