DIAVIS-wiki
:private

INDEX
#contents


-[[関連度]]
-[[検索の種類について]]
----
*情報検索 [#l2870b04]
多数の情報の中から求める情報を探し出すことを,一般に,情報検索(information retrieval)と呼び,とくにその対象がテキスト情報である場合にはテキスト検索(text retrieval)と呼ぶ.

文献検索において,所望の文書(1次情報)のタイトル,著者名,出版社,出版年などのいわゆる書誌的事項(2次情報)や所在情報を知ることを狭義の情報検索と呼ぶ.

情報検索システムは,ユーザの検索意図と文書群を照合し,その意図に適合するものを探し出す.

サブセットを作る作業と表現することもできる.



*検索アルゴリズム [#x050c71e]
完全照合方式(exact match method)と部分照合方式(partial match method)に分類できる.完全照合方式には,Booleanモデル(Boolean model)[Salton83]がある.
部分照合方式には,ベクトル空間モデル(vector space model)や確率型モデル(probabilistic model) [Robertson 76]

[Belkin 87]が挙げられる.

しかし,検索結果は,複数の検索語が組み合わされたクエリに対する結果として,提示されるため,個々の検索語と個々の情報との関係性は示されない.個々の検索ごとの関係を確認するためには,ユーザ自身で,各情報にアクセスし,内容を調べなければならなかった.

適合性フィードバック(Relevance feedback)Meadow 92]
検索結果に基づいて検索式を修正する.



ユーザプロファイリング技術を用いて改善することなどが挙げられる.
アンケート[Malone 86"Informatin Lens"][Yan 95 "SIFT"]や,閲覧文書に評価付けを行う明示的(直接的)手法(explicit method)[][][][][]の他に,暗黙的(間接的)手法(implicit method)がある.
アクセス履歴や閲覧文書への興味を,閲覧時間やマウス操作などにより推定することで行う.





*適合率(precision)と再現率(recall) [#eebad2bb]
:適合性 relevance|適合する結果とは,ユーザにとって興味深く有益な結果のこと.

:適合率 precision|適合するドキュメント「だけ」をどれくらい正しく検索できるかという度合いの評価
:再現率 recall|適合するドキュメント「すべて」をどれくらい正しく検索できるかという度合いの評価

 適合率 = 検索結果内の適合データ数 / 検索結果データの総数
 再現率 = 検索結果内の適合データ数 / 実際の適合データの総数

これらの測定基準は検索の種類によって重要度が相対的に変化する.
:サンプル検索|役立つドキュメントが数件見つかれば事足りる種類の検索.適合率が再現率より重要.
:|ほとんどのGoogleのユーザは,多数の[[フォルスドロップ]]を選別する手間をかけずに,手っ取り早く数件程度の結果が得られればよいと思っている.
:存在検索|既知の項目や,特定のドキュメント(ウェブサイト)を見つけ出す必要がある検索.適合率がより重要.
:全数検索|適合するドキュメントを全件(もしくはそれに近い件数)を引き出す必要がある種類の検索.再現率のほうが重要.

**問題 [#hcf1f382]
***再現率の測定 [#k384081b]
-あらかじめ,全データ内の適合データの総数を数えておかなければならない
-データの母集団のサイズが大きくなるにつれて劇的に低下する

*情報検索のモデルと文書分類 [#vb33b31e]
-完全照合方式(exact match method)
--Booleanモデル(boolean model)
-部分照合方式(partial match method)
--ベクトル空間モデル(vector space model)
--確率型モデル(probabilistic model)
[Belkin 87]
-文書分類(document categorization / document classification)

:参考資料|http://www.nishilab.sys.es.osaka-u.ac.jp/people/hijikata/hijikata/projects/IFtutorial.pdf

*用語 [#i9b516f5]
:アバウトネス|
:統制語彙|図書館情報学の用語で,情報検索において索引語として利用する語を限定し,その意味の範囲や使用方法を規定したものの集まりを指す.
:ストップワード(stop word)|索引語として選択しない語のこと.

*参考文献 [#pad2355b]
-Peter Morville,アンビエント・ファインダビリティ,O'REILLY,2006
-長尾真編,自然言語処理,岩波書店,1996
-Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval, Addison Wesley, 1999.


Riecken, D., et al. (2000) Personalized Views of Personalization, Comm. of the
ACM, Vol.43, No.8, pp. 26-158.
Loeb, S. and Terry, D. (1992) Information Filtering, Comm. of the ACM, Vol.35,
No.12, pp. 26-81.
Resnick, P. and Varian, H. (1997) Recommender Systems, Comm. of the ACM,
Vol.40, No.3, pp. 56-89.
Belkin, N.J. and Croft, W.B. (1992) Information Filtering and Information
Retrieval: Two Sides of the Same Coin?, Comm. of the ACM, Vol.35, No.12,
pp.29-38.
Meadow, C. (1992) Text Information Retrieval Systems, Academic Press.
Belkin, N.J. and Croft, W.B. (1987) Retrieval techniques, Annual Review of
Information Science and Technology, Vol.22, pp. 109-145.
Taube, M., et al. (1955) Storage and Retrieval of Information by Means of the
Association Ideas, American Documentation, Vol.6, No.1, pp.1-18.
Faloutsos, C. (1985) Access Methods for Text, ACM Computing Surveys, Vol.17,
No.1, pp. 49-74.

菊池忠一(1992) 日本語文書用高速全文検索の一手法,電子情報通信学会論文誌,
Vol.J75-D-I, No.9, pp.836-846.
Salton, G. and McGill, M.J. (1983) Introduction to Modern Information Retrieval,
McGraw-Hill.
Deerwester, S.C., et al. (1990) Indexing by Latent Semantic Analysis, Journal of the
American Society for Information Science, Vol.41, No.6, pp.391-407.
Robertson, S.E., Sparck Jones, K. (1976) Relevance Weighting of Search Terms, Journal
of the American Society for Information Science, Vol.27, No.3, pp.129-146.
杉本雅則(1999) 情報収集システムにおけるユーザモデリングと適応的インタラクション,人
工知能学会学会誌, Vol.14, No.1, pp.25-32.
Krulwich, B. (1995) Learning User Interests across Heterogeneous Document Databases,
AAAI Spring Symposium Series on Information Gathering from Distributed
Heterogeneous Environments.
Joachims, T., Freitag, D. and Mitchell, T. (1997) WebWatcher: A Tour Guide for the
World Wide Web, Proc. of IJCAI’97, pp.770-775.
Jennings, T. and Higuchi, H. (1992) A Personal News Service Based on a User Model
Neural Network, IEICE Trans. on Information and Systems, Vol.E75-D, No.2, pp.198-209.

Sheth, B. and Maes, P. (1993) Evolving Agents for Personalized Information Filtering,
Proc. of IEEE Conference on Artificial Intelligence for Applications, pp.345-352.
Pazzani, M. and Billsus, D. (1997) Learning and Revising User Profiles: the
Identification of Interesting Web Sites, Machine Learning, Vol.27, No.3, pp.313-331.
Malone, T.W, et al. (1986) Semi-Structured Messages are Surprisingly Useful for
Computer-Supported Coordination, Proc. of CSCW’86, pp.102-114
Yan, T.W. and Garcia-Molina, H. (1995) SIFT - A Tool for Wide-Area Information
Dissemination, Proc. of 1995 USENIX Technical Conference, pp.177-186.
Foltz, P.W. (1990) Using Latent Semantic Indexing for Information Filtering, Proc. of
ACM Conference on Office Inforamtion Systems, pp.40-47.
Resnick, P., et al. (1994) GroupLens: An Open Architecture for Collaborative Filtering
of Netnews, Proc. of CSCW'94, pp.175-186.
Balabanovic, M. and Shaham, Y. (1995) Learning Information Retrieval Agent:
Experiments with Automated Web Browsing, Proc. of AAAI Spring Symposium on
Information Gathering from Heterogeneous, Distributed Environments, pp.13-18.
Lang, K. (1995) NewsWeeder: Learning to Filter NetNews, Proc. of ICML'95, pp.331-
339.

Mostafa, J. et al. (1997) A Multilevel Approach to Intelligent Information Filtering:
Model, System and Evaluation, ACM Trans. on Information Systems, Vol.15, No.4,
pp.368-399
Smyth, B. and Cotter, P. (2000) A Personalized Television Listings Service, Comm. of
the ACM, Vol.43, No.8, pp.107-111.
Kantor, P.B., et al. (2000) Capturing Human Intelligence in the Net, Comm. of the ACM,
Vol.43, No.8, pp.112-115.
Middleton, S., et al. (2003) Capturing Interest Through Inference and Visualization:
Ontological User Profiling in Recommender Systems, Proc. of K-CAP'03, pp. 62-69.
Chen, L. and Sycara, K. (1998) WebMate: A Personal Agent for Browsing and
Searching, Proc. of Agent’98, pp.132-139.
Crabtree, I. and Soltysiak, S. (1998) Identifying and Tracking Changing Interests,
International Journal of Digital Library, Vol.4, pp.38-53.
橘高博行ほか(1999) パーソナライズ情報提供方式の提案と評価,情報処理学会論文誌,
Vol.40, No.1, pp.175-187.
Sugiyama, K., Hatano, K., Yoshikawa, M. (2004) Adaptive Web Search Based on User
Profile Constructed without Any Effort from Users, Proc. of WWW’02, pp.675-684.

Morita, M. and Shinoda,Y. (1994) Information Filtering Based on User Behavior
Analysis and Best Match Text Retrieval, Proc. of the 17th Annual International
ACM-SIGIR Conference on Research and Development in Information Retrieval,
pp.272-281.
Foltz, P.W. and Dumais, S.T. (1992) Personalized Information Delivery: An Analysis
on Information Filtering Methods, Comm. of the ACM, Vol.35, No.12, pp.51-60.
Sakagami, H. and Kamba, T. (1997) Learning Personal Preferences on Online
Newspaper Articles from User Behaviors, Proc. of WWW’97.
土方嘉徳,青木義則,古井陽之助,中島周(2002) マウス挙動に基づくテキスト部分
抽出方式と抽出キーワードの有効性に関する検証,情報処理学会論文誌,Vol.43, No.2,
pp.566-576.
大野健彦(2000) IMPACT:視線情報の再利用に基づくブラウジング支援法,
WISS’2000, pp.137-146.
宮原一宏,岡本敏雄(1998) Webブラウジングに基づいた興味の定量的同定法とその
協調フィルタリングへの適用,信学技法,ET97-115, pp.17-24.

トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS