書籍詳細

書籍のレビュー・概要

文字・単語・文・文書からなる離散データをベイズ統計モデルでいかに学習するか。さまざまなテキストの統計的なモデル化の数理について一から説明し、ブラックボックスに頼らずとも自分の手で統計的分析を駆使できるようになることを目指す。分野を問わず自然言語処理の必要性が増加の一途をたどるなか、読者を基礎から導く好適書。 ☞ 本書サポートページ

統計的テキストモデル

Takumi ブックス

統計的テキストモデル

言語へのベイズ的アプローチ

著者・関係者
持橋 大地 著
カテゴリ
自然科学書
刊行日
2025/06/27
体裁
A5・上製・400頁
ISBN
9784000069762
在庫状況
在庫あり

価格:5,060 円

カートを見る

著者略歴

  • 持橋大地(もちはし・だいち) 1973年生まれ.1993年東京大学文科三類入学,2005年奈良先端科学技術大学院大学情報科学研究科博士後期課程修了.博士(理学).ATR音声言語コミュニケーション研究所,NTTコミュニケーション科学基礎研究所各研究員を経て,2024年より統計数理研究所 統計基盤数理研究系教授/総合研究大学院大学 統計科学コース教授および国立国語研究所 次世代言語科学研究センター教授(兼務).専門は自然言語処理および統計的機械学習.著書に『ガウス過程と機械学習』(講談社,共著),翻訳に『パターン認識と機械学習』(丸善出版,共訳)などがある.

目次

  1. はじめに 本書の記法 1 テキストと言語のモデル化 1.1 言語とテキストの特徴 1.2 テキストの階層構造 1.3 教師あり学習と教師なし学習 1.4 統計的な方法とヒューリスティックな方法 1.5 本書の概要と読み方 1.6 本書の例と実装について 1章の文献案内 2 文字の統計モデル 2.1 文字の頻度と出現確率 2.2 文字の同時確率 2.3 同時確率の周辺化 2.4 文字の条件つき確率 2.4.1 確率の連鎖則 2.4.2 ベイズの定理 2.5 文字nグラムモデル 2.5.1 文字列の確率的生成 2.5.2 ゼロ頻度問題 2.6 統計モデルの学習と評価 2.6.1 学習データとテストデータ 2.6.2 テキストの確率の計算 2.6.3 情報理論の基礎 2.6.4 統計モデルと汎化性能 2章の演習問題 2章の文献案内 3 単語の統計モデル 3.1 文字から単語へ 3.2 単語の統計と羃乗則 3.2.1 Heapsの法則 3.2.2 Zipfの法則 3.3 単語の統計的フレーズ化 3.4 単語nグラム言語モデル 3.4.1 ディリクレ分布 3.4.2 ディリクレ分布と多項分布 3.4.3 ハイパーパラメータαの推定 3.4.4 階層ディリクレ言語モデル 3.4.5 Kneser-Ney言語モデル 3.5 単語ベクトルとその原理 3.5.1 ニューラルnグラム言語モデル 3.5.2 Word2Vecによる単語ベクトル 3.5.3 単語ベクトルの学習 3.5.4 Word2Vecと行列分解 3.5.5 GloVeと意味方向の数理 3.5.6 単語ベクトルの分布とノルム 3章の演習問題 3章の文献案内 4 文の統計モデル 4.1 テキストの文分割 4.2 文ベクトルと意味的ランダムウォーク 4.2.1 RAND-walkモデル 4.2.2 文ベクトルの計算 4.3 構文解析と係り受け解析 4.4 隠れマルコフモデル(HMM) 4.4.1 HMMの状態推定 4.4.2 HMMのパラメータ推定 4.4.3 周辺化Gibbsサンプリング 4.4.4 HMMによる品詞の教師なし学習 4章の演習問題 4章の文献案内 5 文書の統計モデル 5.1 ナイーブベイズ法と単語集合表現 5.1.1 文書の分類確率 5.2 ユニグラム混合モデル(UM) 5.2.1 トピックの解釈と自己相互情報量 5.2.2 EMアルゴリズムによる学習 5.2.3 UMのベイズ学習 5.3 ディリクレ混合モデル(DM) 5.3.1 単語単体と幾何的解釈 5.3.2 ポリア分布と単語のバースト性 5.4 潜在ディリクレ配分法(LDA) 5.4.1 Gibbsサンプリングによる学習 5.4.2 周辺化Gibbsサンプリングによる学習 5.4.3 LDAの幾何的解釈 5.4.4 トピックモデルの評価と拡張 5.5 ニューラル文書モデルと独立成分分析 5.5.1 文書ベクトルとニューラル線形モデル 5.5.2 文書ベクトル/単語ベクトルの解釈 5.6 確率的潜在意味スケーリング(PLSS) 5.6.1 項目反応理論によるテキストの尺度化 5.6.2 PLSSの半教師あり学習 5章の演習問題 5章の文献案内 付 録 A ディリクレ分布の積分と期待値 A.1 ディリクレ分布の積分公式 A.2 ディリクレ分布の期待値 B ディリクレ分布のαのベイズ推定 C Jensenの不等式 参考文献 あとがきと謝辞 索 引

本文紹介

さまざまなテキストの統計的なモデル化について一から学び、ブラックボックスに頼らない統計的な分析を身につけるための好適書。

抜粋:文字・単語・文・文書からなる離散データをベイズ統計モデルでいかに学習するか。さまざまなテキストの統計的なモデル化の数理について一から説明し、ブラックボックスに頼らずとも自分の手で統計的分析を駆使できるようになることを目指す。分野を問わず自然言語処理の必要性が増加の一途をたどるなか、読者を基礎から導く好適書。 ☞ 本書サポートページ