Information Retrieval Systems
情報検索システム論
2017年度前期木曜2限「情報検索システム論」のページです。
担当:村上 晴美
場所:学術情報総合センター情報教育実習室3
おしらせ
講義主題と目標(シラバスより)
インターネット、パソコンやスマートフォンの普及に伴い、個人や集団が扱うデジタルデータは膨大な量になってきている。 本講義では「webと検索エンジン」を例にあげ、テキスト処理を中心とする「情報検索システムの開発と評価」について説明する。 情報検索システムに関する研究や業務を行うために必要な、基礎的な知識の修得を目標とする。
授業計画
受講者の興味に応じて省略や順番変更の可能性がある。
日時・場所が変更になる可能性があります。
第 1回(4/ 6): コース概要、情報検索とは
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『情報検索の基礎』
- 『Search Engines: Information Retrieval in Practice』
- 配布資料
- コース概要
- 情報検索 / Information Retrieval とは
- 情報検索といえば
- コース概要
- 講義の内容と目標, 成績評価方法(予定), 教科書・参考書, Contact
- 今日の話題
- 情報検索 / Information Retrieval とは
- 情報検索とは, 典型的な情報検索システム, 情報検索のモデル, 情報検索と学問分野
- 情報検索研究の起源
第 2回(4/13): 情報検索とは(続), 情報検索の基礎
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『情報検索アルゴリズム』
- 配布資料
- 「情報検索」といえば...
- Information Science(情報学)の古典的研究例
- 情報検索といえば, 検索エンジンのシェア
- 情報検索と学問分野(再)
- 情報学における情報検索研究
- 参考
第 3回(4/20): 情報検索の基礎(続)
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『Search Engines: Information Retrieval in Practice』
- 『情報検索アルゴリズム』
- 配布資料
- 新聞記事からの語の抽出1,2
- 情報検索の基礎(1):語の抽出
- 今日の話題
- 情報検索の基礎
- 文書とその表現, 例題:新聞記事からの語抽出
- 索引付けの概要
- 語の付与(人間 vs コンピュータ, 統制語 vs 自然語, 語 vs 文字, 粒度
- トークン化: 形態素解析とNグラム
- 参考
第 4回(4/27): 情報検索の基礎(続)
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『情報検索アルゴリズム』
- 配布資料
- 情報検索の基礎(2):索引作成
- 情報検索の基礎
- 索引付けの概要
- 語の付与(人間 vs コンピュータ, 統制語 vs 自然語, 語 vs 文字, 粒度
- トークン化: 形態素解析とNグラム
- 不要語処理、正規化、接辞処理
- 出現頻度とZipfの法則
- 研究室課題研究紹介
第 5回(5/11) 情報検索の基礎(続)
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『情報検索アルゴリズム』
- 『Search Engines: Information Retrieval in Practice』
- 配布資料
- 情報検索の基礎(3):重み付けとランキング
- 情報検索の基礎
- 重み付けとtf, tf-idf, 正規化
- 検索モデル(ブーリアンモデル)
- 検索モデル(ベクトル空間モデル)
- 類似度計算(内積と余弦)
- 余弦によるランキングとk-NN
- よく使われる式:余弦, Okapi BM25
第 6回(5/18): 情報検索の基礎(続)と全文検索
- 今日のテキスト
- 『情報検索と言語処理』
- 『情報検索アルゴリズム』
- 『Search Engines: Information Retrieval in Practice』
- 情報検索の基礎
- 検索モデル(確率モデル)
- よく使われる式:余弦, Okapi BM25
- ランキングの基本(tf, idf, 正規化)+Web(タグ, PageRank, アンカー)
- 検索質問と検索質問拡張とクエリログ
5/25は休講でした
第 7回(6/1): 全文検索の概要,Web検索エンジンとSEOの概要
- 今日の話題
- 今日のテキスト
- 『情報検索と言語処理』
- 『情報検索アルゴリズム』
- 配布資料
- 全文検索の概要
- Webと検索エンジンとSEOの概要
- 全文検索の概要
- 全文検索とは、逐次検索と索引検索、転置索引(形態素解析 vs Nグラム)
- シグネチャファイル
- Suffix Array
- インターネット検索とイントラネット検索(エンタープライズ検索)とデスクトップ検索の違い
- Webの概要
- 全文検索と検索エンジン, ロボット型とディレクトリ型、ロボット型検索エンジンのしくみ
- Webと検索エンジンの歴史
- 参考
第 8回(6/8): Web検索エンジンとSEOの概要(続),情報検索システムの評価
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『Search Engines: Information Retrieval in Practice』
- 配布資料
- 情報検索システムの評価
- 評価&性能とは、性能評価の観点、有効性と効率性
- 再現率と精度、F値、p@10、F値、再現率ー精度グラフ、再現率と精度の平均と要約
第 9回(6/15): 情報検索システムの評価(続)
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『Search Engines: Information Retrieval in Practice』
- レポートについて
- 情報検索システムの評価
- 平均精度AP/MAP
- RR/MRR
- DCG/nDCG
- テストコレクション, TREC, NTCIR
- 課題指向の評価、検索エンジンの評価
- 参考
第10回(6/22): 情報検索システムの評価(続),情報検索とユーザインタラクション
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『Search Engines: Information Retrieval in Practice』
- 配布資料
- 情報検索とユーザ・インタラクション(検索質問の修正)
- 情報工学の論文と評価
- 情報検索システムの評価
- 課題指向の評価、検索エンジンの評価
- 情報検索とユーザ・インタラクション(検索質問の修正)
- 適合性フィードバック, 検索質問拡張
- 用語の追加とシソーラス
- 用語の関連度: Dice
第11回(6/29): 情報検索とユーザインタラクション,情報検索と関連技術
- 今日のテキスト
- 『情報検索と言語処理』
- 『Introduction to Information Retrieval』
- 『Search Engines: Information Retrieval in Practice』
- 配布資料
- 情報検索と関連技術(1)
- 情報検索の関連技術
- 自動分類: ベクトル空間モデル(Roccio、kNN、SVM)
- 自動分類: 確率モデル(ナイーブ・ベイズ)
- 参考
第12回(7/ 6): 情報検索と関連技術(続)
- 今日のテキスト
- 『情報検索と言語処理』
- 『人工知能の基礎』
- 配布資料
- 情報検索と関連技術(2)
- 情報検索の関連技術
- 自動分類: 確率モデル(ナイーブ・ベイズ)、ルールベース、決定木
- クラスタリング(階層型/非階層型、1パス法、k-means)
第13回(7/13): 情報検索と関連技術(続), まとめ
- 今日のテキスト
- 『情報検索と言語処理』
- 『自動要約』
- 『Search Engines: Information Retrieval in Practice』
- 配布資料
- 情報検索の関連技術(3)
- 情報検索「研究」の最近の動向
- 情報検索の関連技術
- 情報抽出: MUC, パターンによる方法, 情報抽出の評価, 固有表現抽出
- データマイニングとテキストマイニング
- テキストの自動要約: 要約と抄録, Edmundsonパラダイム, 自動要約の評価
- 検索エンジンの要約: KWIC, description
- 情報フィルタリング(コンテンツフィルタリング/協調フィルタリング)
- 情報推薦
- 情報検索「研究」の最近の動向
- 関連する学会と雑誌
- 2017年の会議(ACM SIG-IR)から
- 参考
第14回(7/20): 補講(希望者のみ、出席はとりません)
主な参考書
- Manning et al.: Introduction to Information Retrieval, Cambridge University Press
- Manning et al., 岩野他訳: 情報検索の基礎, 共立出版
- Croft et al.: Search Engines: Information Retrieval in Practice, Addison Wesley
- 徳永: 情報検索と言語処理, 東京大学出版会
参考書(紹介順)
- Manning et al.: Introduction to Information Retrieval, Cambridge University Press
- Manning et al., 岩野他訳: 情報検索の基礎, 共立出版
- Croft et al.: Search Engines: Information Retrieval in Practice, Addison Wesley
- 徳永: 情報検索と言語処理, 東京大学出版会
- 田村編: 情報探索と情報利用,勁草書房
- 三輪: 情報行動:システム志向から利用者志向へ, 勉誠出版
- 北他: 情報検索アルゴリズム, 共立出版
- 関口: Apache Lucene 入門 Java・オープンソース・全文検索システムの構築, 技術評論社
- 関口他: Apache Solr入門, 技術評論社
- 山田他: 検索エンジン自作入門~手を動かしながら見渡す検索の舞台裏, 技術評論社
- 岡野原: 高速文字列解析の世界―データ圧縮・全文検索・テキストマイニング, 岩波書店
- 酒井: 情報アクセス評価方法論, コロナ社
- Kelly, 上保他編訳: インタラクティブ情報検索システムの評価: ユーザの視点を取り入れる手法, 丸善出版
- Hearst, 角谷他監訳: 情報検索のためのユーザインタフェース, 共立出版
- 元田他: データマイニングの基礎 (IT Text), オーム社
- Richert et al., 斎藤訳:実践 機械学習システム,オライリー・ジャパン
- 馬場口他:人工知能の基礎,オーム社
- 那須川: テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法, 東京電機大学出版局
- Mani, 奥村他訳: 自動要約, 共立出版
- 奥村, 難波: テキスト自動要約, オーム社
- Jannach他, 田中他監訳: 情報推薦システム入門, 共立出版
関連講義等
- 基礎科目「情報科学基礎(人工知能の基礎):村上」
- ワークショップ講演: 6/13(火) 土方 嘉徳先生(関西学院大学)「ソーシャルメディアの心理学」
- ワークショップ講演: 7/ 4(火) 岡本 真先生(ARG株式会社)「未来の図書館」