Feature Weight Algorithm

1. TF-IDF

TFIDF 알고리즘은 정보 검색 분야에서 가장 중요한 알고리즘이었습니다. 검색, 문서 분류와 관련된 분야에서 널리 사용되었으며, 정보 검색 상관 관계의 척도였습니다. TFIDF 알고리즘의 기본 개념은 다음과 같은 두 가지 측면을 포함합니다.

  • TF (빈도) – 문서의 용어의 빈도가 높을수록 용어의 가중치를 많이 반영함
  • IDF (역문서 빈도)- 주어진 문서 집합에서 용어를 포함하는 문서의 수가 많을수록 용어의 가중치를 낮게 반영함
N: 문서 집합 D의 크기, 또는 전체 문서의 수
n: 해당 단어가 포함된 문서의 수