DIAVIS-wiki
[[論文の書き方について]]

*共起(Co-occurrence) [#yb6df7b0]
 文書検索の研究分野では,複数の語が同じ文章中に出現することを数値化して,それを検索に利用する場合がある.この複数の語が同じ文書中に出現することを共起(co-occurrence)と呼ぶ.この共起の概念の具体例としては,ある文書集合に対して,aとb二つの語のAND検索を行い,その検索された文書数を共起情報とする手法である.つまり,語aを含む文書集合をA,語bを含む文書集合をBとした場合,共起は語aおよび語bをともに含む文書集合|A∩B|として与えられる.これを数値化する方法はさまざまだが,単純に|A∩B|を利用するよりは,集合の類似度を表現するDice係数2|A∩B|/(|A|+|B|)やSimpson係数|A∩B|/min(|A|,|B|)などが用いられることが多い.一方,確立統計的な言語処理手法の一つにNグラム(N-gram)があるが,ここにも共起の概念は存在する.この分野での概念は上記で説明した概念とは若干異なり,あるテキスト全体を前から順に任意のN個の文字列または単語の組み合わせで分割したとき,その文字列または単語の組み合わせ自体のことを共起(collocation)と呼んでいる.(波多野賢治)
-「Webインテリジェンスとインタラクション」特集実行委員会編,「Webインテリジェンスとインタラクション用語集」,知能と情報(日本知能情ファジィ学会誌)Vol.18,No.2,pp.140-148(2006)
トップ   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS