TF-IDF

term frequency, inverse document frequencyの略.
document categorization(文書分類)等において,文書の数値表現として各単語の出現頻度で表現したベクトルを用いることが多いんですが,
そのときに各単語の頻度を調整する方法を指します.
例えば文書中に「萌え」が1回出てくるのと10回出てくる文書を比べたときに,
「萌え」に関する文書として,単純に後者に前者の10倍の重みを付けるより,
ある程度ゆるい重み付け,例えば\sqrt{10}を付けたほうが良さそうですよね?
この考えに基づいて語の頻度を調整する方法(何らかの数値関数)を総称してterm frequencyと言います.
また,多くの文書に偏在する語,特に機能語などはそれが文書に出現しても文書の特徴づけとはなりにくいですよね?
この考え方に基づいて,各単語がどれだけの文書に出現したかの頻度で割る
(より一般には頻度が多いほど数値を小さく抑える傾向を持つ関数を作用させる)ことで
単語の頻度の重み付けを調整する方法を総称してinverse document frequencyといいます.
なお多くの検索エンジンでは,機能語など特に多くの文書に現れる単語ははじめからその頻度を数えていません(いわゆるstop word).