DIAVIS-wiki
INDEX
#contents

----
*情報検索 [#l2870b04]
多数の情報の中から求める情報を探し出すことを,一般に,情報検索(information retrieval)と呼び,とくにその対象がテキスト情報である場合にはテキスト検索(text retrieval)と呼ぶ.

文献検索において,所望の文書(1次情報)のタイトル,著者名,出版社,出版年などのいわゆる書誌的事項(2次情報)や所在情報を知ることを狭義の情報検索と呼ぶ.

情報検索システムは,ユーザの検索意図と文書群を照合し,その意図に適合するものを探し出す.



*適合率(precision)と再現率(recall) [#eebad2bb]
:適合性 relevance|適合する結果とは,ユーザにとって興味深く有益な結果のこと.

:適合率 precision|適合するドキュメント「だけ」をどれくらい正しく検索できるかという度合いの評価
:再現率 recall|適合するドキュメント「すべて」をどれくらい正しく検索できるかという度合いの評価

 適合率 = 検索結果内の適合データ数 / 検索結果データの総数
 再現率 = 検索結果内の適合データ数 / 実際の適合データの総数

これらの測定基準は検索の種類によって重要度が相対的に変化する.
:サンプル検索|役立つドキュメントが数件見つかれば事足りる種類の検索.適合率が再現率より重要.
:|ほとんどのGoogleのユーザは,多数の[[フォルスドロップ]]を選別する手間をかけずに,手っ取り早く数件程度の結果が得られればよいと思っている.
:存在検索|既知の項目や,特定のドキュメント(ウェブサイト)を見つけ出す必要がある検索.適合率がより重要.
:全数検索|適合するドキュメントを全件(もしくはそれに近い件数)を引き出す必要がある種類の検索.再現率のほうが重要.

**問題 [#hcf1f382]
***再現率の測定 [#k384081b]
-あらかじめ,全データ内の適合データの総数を数えておかなければならない
-データの母集団のサイズが大きくなるにつれて劇的に低下する

*情報検索のモデルと文書分類 [#vb33b31e]
-完全照合方式(exact match method)
--Booleanモデル(boolean model)
-部分照合方式(partial match method)
--ベクトル空間モデル(vector space model)
--確率型モデル(probabilistic model)
[Belkin 87]
-文書分類(document categorization / document classification)

:参考資料|http://www.nishilab.sys.es.osaka-u.ac.jp/people/hijikata/hijikata/projects/IFtutorial.pdf

*用語 [#i9b516f5]
:アバウトネス|
:統制語彙|図書館情報学の用語で,情報検索において索引語として利用する語を限定し,その意味の範囲や使用方法を規定したものの集まりを指す.
:ストップワード(stop word)|索引語として選択しない語のこと.

*参考文献 [#pad2355b]
-Peter Morville,アンビエント・ファインダビリティ,O'REILLY,2006
-長尾真編,自然言語処理,岩波書店,1996
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS