2004-03-08から1日間の記事一覧

cosine

文書間の類似度を測る尺度の一つ. 上記のTF-IDFで文書の特徴を表現するベクトルを生成するわけですが, そのベクトルの近さを測る尺度として最も単純にはベクトルの内積が用いられます. ですが,単純にベクトル同士の内積を取ると長いベクトル(長い文書)…

TF-IDF

term frequency, inverse document frequencyの略. document categorization(文書分類)等において,文書の数値表現として各単語の出現頻度で表現したベクトルを用いることが多いんですが, そのときに各単語の頻度を調整する方法を指します. 例えば文書…

Amazonメールに見るTF-IDF & cosineの威力

Amazonからいつものようにメールが届いた. 何気なく読んでみる. 「いよいよ予約開始! 『CLANNAD -クラナド- 初回限定版』が今ならスペシャルプライス【30%OFF】」 よく分かっていらっしゃる・・・_| ̄|○ TF-IDF*1 & cosine*2(だと思うが)の威力を実感…