村上晴美研究室

Information Retrieval Systems
情報検索システム論

2017年度前期木曜2限「情報検索システム論」のページです。
担当:村上 晴美
場所:学術情報総合センター情報教育実習室3

おしらせ

講義主題と目標(シラバスより)

インターネット、パソコンやスマートフォンの普及に伴い、個人や集団が扱うデジタルデータは膨大な量になってきている。 本講義では「webと検索エンジン」を例にあげ、テキスト処理を中心とする「情報検索システムの開発と評価」について説明する。 情報検索システムに関する研究や業務を行うために必要な、基礎的な知識の修得を目標とする。

授業計画

受講者の興味に応じて省略や順番変更の可能性がある。

日時・場所が変更になる可能性があります。

第 1回(4/ 6): コース概要、情報検索とは

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『情報検索の基礎』
    • 『Search Engines: Information Retrieval in Practice』
  • 配布資料
    • コース概要
    • 情報検索 / Information Retrieval とは
  • 情報検索といえば
  • コース概要
    • 講義の内容と目標, 成績評価方法(予定), 教科書・参考書, Contact
  • 今日の話題
  • 情報検索 / Information Retrieval とは
    • 情報検索とは, 典型的な情報検索システム, 情報検索のモデル, 情報検索と学問分野
    • 情報検索研究の起源

第 2回(4/13): 情報検索とは(続), 情報検索の基礎

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『情報検索アルゴリズム』
  • 配布資料
    • 「情報検索」といえば...
    • Information Science(情報学)の古典的研究例
  • 情報検索といえば, 検索エンジンのシェア
  • 情報検索と学問分野(再)
  • 情報学における情報検索研究
  • 参考

第 3回(4/20): 情報検索の基礎(続)

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『Search Engines: Information Retrieval in Practice』
    • 『情報検索アルゴリズム』
  • 配布資料
    • 新聞記事からの語の抽出1,2
    • 情報検索の基礎(1):語の抽出
  • 今日の話題
  • 情報検索の基礎
    • 文書とその表現, 例題:新聞記事からの語抽出
    • 索引付けの概要
    • 語の付与(人間 vs コンピュータ, 統制語 vs 自然語, 語 vs 文字, 粒度
    • トークン化: 形態素解析とNグラム
  • 参考

第 4回(4/27): 情報検索の基礎(続)

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『情報検索アルゴリズム』
  • 配布資料
    • 情報検索の基礎(2):索引作成
  • 情報検索の基礎
    • 索引付けの概要
    • 語の付与(人間 vs コンピュータ, 統制語 vs 自然語, 語 vs 文字, 粒度
    • トークン化: 形態素解析とNグラム
    • 不要語処理、正規化、接辞処理
    • 出現頻度とZipfの法則
    •  
    • 研究室課題研究紹介

第 5回(5/11) 情報検索の基礎(続)

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『情報検索アルゴリズム』
    • 『Search Engines: Information Retrieval in Practice』
  • 配布資料
    • 情報検索の基礎(3):重み付けとランキング
  • 情報検索の基礎
    • 重み付けとtf, tf-idf, 正規化
    • 検索モデル(ブーリアンモデル)
    • 検索モデル(ベクトル空間モデル)
    • 類似度計算(内積と余弦)
    • 余弦によるランキングとk-NN
    • よく使われる式:余弦, Okapi BM25

第 6回(5/18): 情報検索の基礎(続)と全文検索

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『情報検索アルゴリズム』
    • 『Search Engines: Information Retrieval in Practice』
  • 情報検索の基礎
    • 検索モデル(確率モデル)
    • よく使われる式:余弦, Okapi BM25
    • ランキングの基本(tf, idf, 正規化)+Web(タグ, PageRank, アンカー)
    • 検索質問と検索質問拡張とクエリログ

5/25は休講でした

第 7回(6/1): 全文検索の概要,Web検索エンジンとSEOの概要

第 8回(6/8): Web検索エンジンとSEOの概要(続),情報検索システムの評価

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『Search Engines: Information Retrieval in Practice』
  • 配布資料
    • 情報検索システムの評価
  • SEOの概要
  • 情報検索システムの評価
    • 評価&性能とは、性能評価の観点、有効性と効率性
    • 再現率と精度、F値、p@10、F値、再現率ー精度グラフ、再現率と精度の平均と要約
  • 参考

第 9回(6/15): 情報検索システムの評価(続)

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『Search Engines: Information Retrieval in Practice』
  • レポートについて
  • 情報検索システムの評価
    • 平均精度AP/MAP
    • RR/MRR
    • DCG/nDCG
    • テストコレクション, TREC, NTCIR
    • 課題指向の評価、検索エンジンの評価
  • 参考

第10回(6/22): 情報検索システムの評価(続),情報検索とユーザインタラクション

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『Search Engines: Information Retrieval in Practice』
  • 配布資料
    • 情報検索とユーザ・インタラクション(検索質問の修正)
  • 情報工学の論文と評価
  • 情報検索システムの評価
    • 課題指向の評価、検索エンジンの評価
  • 情報検索とユーザ・インタラクション(検索質問の修正)
    • 適合性フィードバック, 検索質問拡張
    • 用語の追加とシソーラス
    • 用語の関連度: Dice

第11回(6/29): 情報検索とユーザインタラクション,情報検索と関連技術

  • 今日のテキスト
    • 『情報検索と言語処理』
    • 『Introduction to Information Retrieval』
    • 『Search Engines: Information Retrieval in Practice』
  • 配布資料
    • 情報検索と関連技術(1)
  • 情報検索の関連技術
    • 自動分類: ベクトル空間モデル(Roccio、kNN、SVM)
    • 自動分類: 確率モデル(ナイーブ・ベイズ)
  • 参考

第12回(7/ 6): 情報検索と関連技術(続)

  • 今日のテキスト
       
    • 『情報検索と言語処理』
    • 『人工知能の基礎』
  • 配布資料
    • 情報検索と関連技術(2)
  • 情報検索の関連技術
    • 自動分類: 確率モデル(ナイーブ・ベイズ)、ルールベース、決定木
    • クラスタリング(階層型/非階層型、1パス法、k-means)

第13回(7/13): 情報検索と関連技術(続), まとめ

  • 今日のテキスト
       
    • 『情報検索と言語処理』
    • 『自動要約』
    • 『Search Engines: Information Retrieval in Practice』
  • 配布資料
    • 情報検索の関連技術(3)
    • 情報検索「研究」の最近の動向
  • 情報検索の関連技術
    • 情報抽出: MUC, パターンによる方法, 情報抽出の評価, 固有表現抽出
    • データマイニングとテキストマイニング
    • テキストの自動要約: 要約と抄録, Edmundsonパラダイム, 自動要約の評価
    • 検索エンジンの要約: KWIC, description
    • 情報フィルタリング(コンテンツフィルタリング/協調フィルタリング)
    • 情報推薦
  • 情報検索「研究」の最近の動向
    • 関連する学会と雑誌
    • 2017年の会議(ACM SIG-IR)から
  • 参考

第14回(7/20): 補講(希望者のみ、出席はとりません)

主な参考書

  • Manning et al.: Introduction to Information Retrieval, Cambridge University Press
  • Manning et al., 岩野他訳: 情報検索の基礎, 共立出版
  • Croft et al.: Search Engines: Information Retrieval in Practice, Addison Wesley
  • 徳永: 情報検索と言語処理, 東京大学出版会

参考書(紹介順)

  • Manning et al.: Introduction to Information Retrieval, Cambridge University Press
  • Manning et al., 岩野他訳: 情報検索の基礎, 共立出版
  • Croft et al.: Search Engines: Information Retrieval in Practice, Addison Wesley
  • 徳永: 情報検索と言語処理, 東京大学出版会
  • 田村編: 情報探索と情報利用,勁草書房
  • 三輪: 情報行動:システム志向から利用者志向へ, 勉誠出版
  • 北他: 情報検索アルゴリズム, 共立出版
  • 関口: Apache Lucene 入門 Java・オープンソース・全文検索システムの構築, 技術評論社
  • 関口他: Apache Solr入門, 技術評論社
  • 山田他: 検索エンジン自作入門~手を動かしながら見渡す検索の舞台裏, 技術評論社
  • 岡野原: 高速文字列解析の世界―データ圧縮・全文検索・テキストマイニング, 岩波書店
  • 酒井: 情報アクセス評価方法論, コロナ社
  • Kelly, 上保他編訳: インタラクティブ情報検索システムの評価: ユーザの視点を取り入れる手法, 丸善出版
  • Hearst, 角谷他監訳: 情報検索のためのユーザインタフェース, 共立出版
  • 元田他: データマイニングの基礎 (IT Text), オーム社
  • Richert et al., 斎藤訳:実践 機械学習システム,オライリー・ジャパン
  • 馬場口他:人工知能の基礎,オーム社
  • 那須川: テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法, 東京電機大学出版局
  • Mani, 奥村他訳: 自動要約, 共立出版
  • 奥村, 難波: テキスト自動要約, オーム社
  • Jannach他, 田中他監訳: 情報推薦システム入門, 共立出版

関連講義等

  • 基礎科目「情報科学基礎(人工知能の基礎):村上」
  • ワークショップ講演: 6/13(火) 土方 嘉徳先生(関西学院大学)「ソーシャルメディアの心理学」
  • ワークショップ講演: 7/ 4(火) 岡本 真先生(ARG株式会社)「未来の図書館」
MENU
CLOSE