cosine

文書間の類似度を測る尺度の一つ.
上記のTF-IDFで文書の特徴を表現するベクトルを生成するわけですが,
そのベクトルの近さを測る尺度として最も単純にはベクトルの内積が用いられます.
ですが,単純にベクトル同士の内積を取ると長いベクトル(長い文書)が有利になるため,各文書のベクトルの長さを1に揃えることを良くやります.
このときのベクトルの内積の大小が,実はベクトル同士のcosineの大小とちょうど反対の関係になり,
この類似度の尺度をcosineと呼んでいます.
(単純にベクトル同士のcosineを取っていると説明しても良いですが,具体的な意味まで説明するとこうなります)
幾何学的に見ればベクトルの成す角度を測っていることになりますね.
なお,amazonなどでは上のdocumentとtermの関係を商品とuser
(その商品を買った人,またはその商品に興味のある人)の関係に置き換えた類似性検索も使われます.
amazonにおける「この商品を買った人は他にこんな商品も買っています」や,「あわせてこの商品もオススメ」といったものが
この類似性検索の成果の現れです.
(特にこの手のuserの嗜好・傾向推測手法をcollaborative filteringと言います)