書籍詳細

書籍のレビュー・概要

ロングセラー『テキストデータの統計科学入門』を全面的に大改訂。テキストのクリーニングから加工、集計、各種の分析、予測モデルの作成、そして近年の分散表現によるテキスト分類まで、基本的な考え方をふまえ、具体的なツールを使用しながら丁寧に解説する。分析に用いるRのコードも多数収録! ◆本書で使用されているRスクリプト ☞ [62KB] ◆正誤表 ☞ PDFファイル[143KB]

テキストアナリティクスの基礎と実践

Takumi ブックス

テキストアナリティクスの基礎と実践

著者・関係者
金 明哲 著
カテゴリ
自然科学書
刊行日
2021/03/23
体裁
A5・並製 ・カバー ・340頁
ISBN
9784000298964
在庫状況
在庫あり

価格:4,180 円

カートを見る

著者略歴

  • 金 明哲(きん めいてつ) 同志社大学文化情報学部教授。専門は、データサイエンス、統計科学、テキストアナリティクス。著書に『Rによるデータサイエンス(第2版)』(森北出版)、『テキストアナリティクス』(共立出版)、『テキストデータの統計科学入門』(岩波書店)、編集に『Rで学ぶデータサイエンス』全20巻(共立出版)がある。

目次

  1. はじめに 第1章 テキストアナリティクス 1. 1 データの構造 1. 2 テキストアナリティクスとは 1. 3 テキストアナリティクスの小史 1. 4 テキストアナリティクスの諸分野 1. 4. 1 計量文体学 1. 4. 2 計量言語学とコーパス言語学 1. 4. 3 情報知識の抽出(テキストマイニング) 1. 5 テキストアナリティクスの手順 1. 5. 1 テキストの電子化 1. 5. 2 クリーニング 1. 5. 3 テキストの加工 1. 5. 4 データの抽出 1. 5. 5 データの分析 第2章 テキストのクリーニングと関連技法 2. 1 テキストのクリーニングとは 2. 2 テキストのクリーニングと正規表現 2. 3 文字コード 2. 4 テキスト処理とプログラミング言語 第3章 テキスト処理のツール 3. 1 形態素解析 3. 1. 1 JUMAN 3. 1. 2 MeCab 3. 2 構文解析 3. 2. 1 JUMAN/KNP 3. 2. 2 CaboCha 3. 3 意味解析 3. 3. 1 概念辞書 3. 3. 2 極性辞書 3. 3. 3 モダリティー 3. 4 その他の言語 3. 4. 1 欧米語 3. 4. 2 中国語 3. 5 形態素解析や構文解析結果の集計 第4章 テキストの基本統計と視覚化 4. 1 要素の単純集計と視覚化 4. 1. 1 棒グラフ 4. 1. 2 ワードクラウド 4. 1. 3 格子グラフ 4. 1. 4 経時的変化と折れ線グラフ 4. 2 記述統計量と視覚化 4. 3 推測統計と視覚化 4. 3. 1 母集団と標本 4. 3. 2 平均の区間推定 4. 3. 3 帰無仮説検定とその統計量の活用 4. 4 統計的法則と指標 4. 4. 1 ジップの法則 4. 4. 2 語彙の豊富さの指標 第5章 共起とbigramのネットワーク分析 5. 1 共起とは 5. 1. 1 形態素の共起 5. 1. 2 形態素タグのn-gram 5. 2 共起の視覚化 5. 2. 1 ネットワークグラフ 5. 2. 2 ネットワークの統計量 5. 2. 3 コミュニティ分析 5. 3 ネットワーク分析例 5. 3. 1 データの俯瞰 5. 3. 2 基本統計量を用いた探索的分析 5. 3. 3 コミュニティの考察 5. 4 共起の強さ係数 第6章 テキストの特徴分析 6. 1 特徴分析時のデータ形式 6. 2 特異値分解 6. 3 主成分分析 6. 3. 1 主成分と寄与率累積寄与率 6. 3. 2 主成分得点 6. 3. 3 主成分分析の例 6. 4 対応分析 6. 4. 1 対応分析の例 6. 4. 2 対応分析のアルゴリズム 6. 5 潜在意味解析LSA 6. 6 非負行列因子分解 6. 6. 1 NMFの基本的アイディア 6. 6. 2 NMF分析の例 6. 6. 3 NMFの基本アルゴリズム 6. 7 その他の方法 第7章 トピック分析 7. 1 トピックモデルとは 7. 2 確率的潜在意味解析pLSA 7. 2. 1 pLSAとは 7. 2. 2 pLSA分析の例 7. 3 潜在ディリクレ配分法LDA 7. 3. 1 LDA の分析例 7. 3. 2 pLSAとLDAのアルゴリズム 7. 3. 3 トピックの数について 7. 3. 4 トピックモデル 第8章 テキストのクラスタリング 8. 1 類似度 8. 2 距離 8. 2. 1 量的データの距離 8. 2. 2 相対頻度の非類似度 8. 3 階層的クラスタリング 8. 3. 1 階層的クラスタリングのプロセス 8. 3. 2 階層的クラスタリングの例 8. 3. 3 階層的クラスタリングの諸方法 8. 4 クラスターのヒートマップ 8. 5 非階層的クラスタリング 8. 6 クラスター数の決定方法 8. 7 t-SNE 法 8. 7. 1 t-SNE法と主成分分析の比較 8. 7. 2 t-SNEのアルゴリズム 8. 8 その他の方法 第9章 アソシエーション分析法による共起分析 9. 1 アソシエーション分析 9. 2 アソシエーションルール 9. 2. 1 アソシエーションルールとは 9. 2. 2 ルールの評価指標 9. 2. 3 データ形式と操作 9. 2. 4 ルールの抽出 9. 2. 5 ルールの視覚化 9. 3 頻出共起の抽出 9. 3. 1 頻出共起の抽出アルゴリズムeclat 9. 3. 2 アルゴリズムeclatの例 第10章 テキストの分類分析 10. 1 分類分析 10. 2 分類結果の評価 10. 2. 1 交差検証法 10. 2. 2 混同行列 10. 2. 3 正解率再現率適合率F1値 10. 2. 4 ROCとAUCグラフ 10. 2. 5 Kappa係数 10. 3 いくつかの分類器 10. 3. 1 k近傍法と実践 10. 3. 2 線形判別分析 10. 3. 3 ロジスティック判別法 10. 3. 4 ベイズ判別分析 10. 3. 5 サポートベクターマシン 10. 3. 6 ツリーモデル 10. 3. 7 アンサンブル学習 10. 3. 8 ニューラルネットワーク 10. 4 分類器の比較 10. 4. 1 スパムメールの分類 10. 4. 2 小説の著者識別 10. 4. 3 統合的分析 第11章 テキストデータを用いた予測 11. 1 テキストの経時的分析 11. 2 重回帰分析 11. 2. 1 重回帰分析の定式 11. 2. 2 変数の選択 11. 2. 3 文学作品の執筆時期の推定 11. 3 正則化回帰モデル 11. 3. 1 L1 正則化lasso回帰 11. 3. 2 L2 正則化ridge回帰 11. 3. 3 Elastic net回帰 11. 3. 4 正則化回帰モデルによる執筆時期の推定 11. 4 ランダムフォレスト 11. 5 トピックの経時的分析 第12章 特徴量選択 12. 1 特徴量選択について 12. 2 理論的特徴量選択 12. 3 機械的特徴量選択 12. 3. 1 フィルター法 12. 3. 2 ラッパー法 12. 3. 3 埋め込み法 12. 4 特徴量選択とデータの性質構造275 第13章 分散表現 13. 1 分散表現 13. 1. 1 単語のベクトル化 13. 1. 2 文脈情報を考慮したベクトル化 13. 2 word2vec を用いたテキスト分類 13. 3 分散表現のその他の方法 13. 3. 1 GloVe 13. 3. 2 doc2vec 13. 3. 3 fastText 13. 3. 4 ELMo 13. 3. 5 BERTとXLNet 付録A 統計モデルと集計ツールMTMineR A. 1 構成要素を集計する統計モデル A. 2 データ集計のツールMTMineR A. 2. 1 ダウンロードと起動終了 A. 2. 2 ファイルの読み込み A. 3 平テキスト集計のタブと機能 A. 3. 1 Summaryタブ A. 3. 2 n-gramタブ A. 3. 3 Lengthタブ A. 3. 4 Markタブ A. 3. 5 KWICタブ A. 3. 6 Word Listタブ A. 3. 7 Toolsタブ A. 4 タグ付きデータの集計 A. 4. 1 形態素タグのラベル表記 A. 4. 2 各タブの機能 A. 4. 3 n-gramの集計と分析の例 おわりに 参考文献 索 引

本文紹介

ロングセラー『テキストデータの統計科学入門』を全面改訂。具体的なツールを使用しながら丁寧に解説する。

抜粋:ロングセラー『テキストデータの統計科学入門』を全面的に大改訂。テキストのクリーニングから加工、集計、各種の分析、予測モデルの作成、そして近年の分散表現によるテキスト分類まで、基本的な考え方をふまえ、具体的なツールを使用しながら丁寧に解説する。分析に用いるRのコードも多数収録! ◆本書で使用されているRスクリプト ☞ [62KB] ◆正誤表 ☞ PDFファイル[143KB]