【技術分類】

 B−5−(1) TF−IDF解析


【技術の名称】

 ベクトル空間型モデルを使ったランキング前処理


【技術内容】

 検索質問を、文書内容と同様の内部表現に変換して、"ベクトルの相似"という視点で最も適合する文書を検索する方法。ベクトルの余弦を計算し、両ベクトルの張る角度が小さい順に順位付けしていく。tf/idf解析におけるこの技術は、検索内容に対して得られるtf/idf値の最大値が得られる検索文を、最適な検索内容として登録し、調べたい検索内容との関連度の大きさで、最適な検索内容を選択できる。


【図】

  図

  図

 (図は(株)日鉄技術情報センターにおいて、出典をもとに作成いたしました。)


【応用分野】

 サーチエンジン一般


【出典/参考資料】

 <引用情報>
 (a)林真暢、福田直樹、新谷虎松
 (b)Webページのクラスタリングに基づくユーザの興味の推定
 (c)クラスタリングを利用したWebページ推薦システム
 (d)「online」
 (e)2000年6月5日、名古屋工業大学知能情報システム学科、新谷研究室ホームページ
 (f)(2002年2月28日)
 (g)http://www-toralab.ics.nitech.ac.jp/papers/mhayashi-ipsj2000.pdf




【技術分類】

 B−5−(1) TF−IDF解析


【技術の名称】

 確率型モデルを使ったランキング前処理


【技術内容】

 ある文書dが検索質問に適合する確率P(R|d)と、P(R|d)適合しない確率P(^R|d)の比g(d)によって文書の検索質問に対する適合度を計算し文書を順序付けする方法。
 g(d)=P(R|d)/P(^R|d)を計算すると、以下のようになる。
 g(d)=Σlog(P(i)/^P(i))+Σlog(1−P(i)/(1−^P(i))+定数
 ここで、
 P(i)は検索質問に適合する文書に索引語t(i)が付与されている確率
 ^P(i)は検索質問に適合する文書に索引語t(i)が付与されていない確率
 上記の式の解釈を拡張させた次のような重みも提案されている。
 g(d)=Σlog{P(i)・(1−^P(i))/(^P(i)・(1−P(i)))}
 この方法で文書を順位付けするには、検索質問に適合する文書に、索引語t(i)が付与されている確率P(i)をしる必要がある。索引語t(i)と検索質問Qに対して、
 N:全文書数
 Nr:検索質問Qに適合する文書数
 n:索引語t(i)が付与されている文書数
 r:索引語t(i)が付与されている適合文書数
 が得られれば、
 P(i)=r/Nr、^P(i)=(n−r)/(N−Nr)
 で、最尤推定ができる。が、そもそも検索質問に対して適合する文書がわかっているのであれば、既に検索は終わっていることになる。検索質問に対してあらかじめ適合文書がわかったいるような仮想的な状況では確率モデルは最適な解を与えるが、現実にこのような状況はない。そこで、確率モデルでは、最初に適当な初期値でこれらN、Nr、n、rを推定し、検索結果をユーザに判定させて、その結果をフィードバックし、パラメータNrをNr'に更新。これを繰り返してパラメータの精度を改善していくという方法をとる。


【図】

  図

  図

 (図は(株)日鉄技術情報センターにおいて、出典をもとに作成いたしました。)


【応用分野】

 サーチエンジン一般


【出典/参考資料】

 <引用情報>
 (a)林真暢、福田直樹、新谷虎松
 (b)Webページのクラスタリングに基づくユーザの興味の推定
 (c)クラスタリングを利用したWebページ推薦システム
 (d)「online」
 (e)2000年6月5日、名古屋工業大学知能情報システム学科、新谷研究室ホームページ
 (f)(2002年2月28日)
 (g)http://www-toralab.ics.nitech.ac.jp/papers/mhayashi-ipsj2000.pdf