書籍詳細

書籍のレビュー・概要

水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ。高次元空間とはどんな世界なのか、拡散モデルなどの流れの数理はどのように生成AIを実現したのか。AI実装で先端を行く著者が、数式ではなく言葉で、重要な概念の意味を伝える画期的入門書！ ■著者からのメッセージ人工知能をつくろうと考える場合、記憶が重要な要素になります。そして、人のもつ記憶において連想記憶の能力が重要です。人の脳で連想記憶がどのようなしくみで実現されているのか、現在の脳科学でもよくわからないところが多いのが現状です。その連想記憶をコンピュータ上で実現するにはどうしたらよいかを考えて、現在の生成AIにつながる技術が生まれてきました。特にエネルギーやそれに紐づく確率という物理の概念と結びついて発展してきました。その研究が、2024年のノーベル物理学賞にもつながりました。生成AIというと、つくりだす能力が注目されていますが、エネルギーにもとづき生成するモデルがエネルギーが最小になる状態を探索しているという観点から見ると、探索する能力があるということになります。広大な空間の中から答えを探すのはとても難しいことですが、人間の直観はそれを行なっています。かつてのAIにはそうした探索能力はありませんでした。しかし、生成AIが示した〈流れ〉を制御する技術を使えば、これまでの手法では困難だった問題においても効率的に探索することができるのではと考えます。こうした観点は、人の脳の理解にも役に立つ可能性があるかもしれません。脳の学習・推論などの処理のメカニズムはよくわかっていません。〈流れ〉による生成は、脳においても活かされているのかもしれません。すべての情報がなくても局所的な情報だけで学習できたり、並列に情報を処理したり、〈流れ〉による生成には、脳内の処理で実現可能性が高い要素で構成されています。また、脳の処理は、連続的に入力がある中で、次の出力を得ていく〈流れ〉があります。物理のエネルギーの概念をもとにしたモデルと関係している可能性はあると思います。膨大な空間中の流れを制御することは長年難しかったことです。しかし、本書で紹介する拡散モデルやフローマッチングは、画像や音声、動画などの生成で具体的な成果を出していますから、今後、脳のしくみに迫る研究など他の分野での研究も発展するかもしれません。本書では、数式を用いずに、生成AIの歴史から、こうした今後の発展の可能性までを紹介しました。ぜひご覧ください。 ■著者・岡野原大輔氏による本書のサポートページ https://hillbig.github.io/flow-generative-models/

Takumi ブックス

生成AIのしくみ〈流れ〉が画像・音声・動画をつくる

著者・関係者: 岡野原大輔著
カテゴリ: 自然科学書
体裁: B6・並製・142頁
ISBN: 9784000297288

著者略歴目次本文紹介

著者略歴

岡野原大輔（おかのはら・だいすけ） 1982年生まれ．2010年東京大学大学院情報理工学系研究科博士課程修了，博士(情報理工学)．2006年Preferred Infrastructureを共同で創業，2014年Preferred Networks(PFN)を共同で設立．現在，PFN代表取締役最高研究責任者，Preferred Computational ChemistryおよびPreferred Elements代表取締役社長を務める．著書に『高速文字列解析の世界──データ圧縮・全文検索・テキストマイニング』『拡散モデル──データ生成技術の数理』『大規模言語モデルは新たな知能か──ChatGPTが変えた世界』(岩波書店)ほか．

まえがき１生成AIを作る生成AIとは指示や条件に従って生成させるこれまで生成が難しかったデータを生成できるルールベースから機械学習へ生成タスクはとりわけ難しい機械学習問題データ生成は広大な海の中で島を見つけるようなタスク広大で奇妙な高次元空間生成において正解の出力は1つだけではない多様体仮説──データは低次元に埋め込まれている対称性──データには変換に対する不変性がある構成性──データは多くの部品の組み合わせで成り立っているコラム◎データがもつ特性は人が与えるのか、自ら学習するのかまとめ２生成AIの歴史記憶のしくみイジングモデルからホップフィールドネットワークへエネルギーベースモデルとはエネルギーベースモデルは連想記憶を自然に実現するエネルギーと確率との対応：ボルツマン分布ランジュバン・モンテカルロ法の原理エネルギーベースモデルの致命的な問題コラム◎現実世界は超巨大なシミュレーター空間全体の情報を支配する分配関数データは隠れた情報から生成されている生成するためには認識が必要変分自己符号化器(VAE) 潜在変数モデルの問題コラム◎敵対的生成ネットワーク(GAN) コラム◎自己回帰モデルコラム◎ノーベル賞2024年まとめ３流れをつかった生成流れとは連続の式──物質は急に消えたりワープしない流れをつかって複雑な確率分布を作り出す流れをつかったモデルは分配関数を求める必要がない正規化フロー・連続正規化フロー流れをたどって尤度を求め、それを最大化するよう学習する流れに沿ってデータを生成する流れは複雑な生成問題を簡単な部分生成問題に分解する流れをモデル化する流れの結果の計算正規化フローの課題まとめ４拡散モデルとフローマッチング拡散モデルの発見一般の拡散現象コラム◎ブラウン運動拡散モデルとは拡散過程が生み出す流れ＝スコアスコアとエネルギーとの関係時間と共にスコアは変化していくデノイジングスコアマッチングシミュレーション・フリーな学習は学習の一部分を取り出す拡散モデルによる学習と生成のまとめ拡散モデルによって生み出される流れの特徴拡散モデルと潜在変数モデルの関係データ生成の系統樹を自動的に学習する拡散モデルはエネルギーベースモデルである拡散モデルは流れをつかった生成モデルであるフローマッチング：流れを束ねて複雑な流れを作る最適輸送とは最適輸送をつかった生成最適輸送を直接求めるのは計算量が大きすぎるフローマッチングの学習フローマッチングの発展条件付き生成は条件付き流れで実現潜在拡散モデル──元データを潜在空間に変換して品質を改善まとめ５流れをつかった技術の今後汎化をめぐる謎の解明対称性を考慮した生成注意機構と流れ流れによる数値最適化言語のような離散データの生成脳内の計算機構との接点流れによる生成の未来付録機械学習のキーワード確率と生成モデル最尤法機械学習機械学習のしくみパラメータの調整＝学習ニューラルネットワーク有限の学習データから無限のデータに適用可能なルールを獲得する汎化

本文紹介

核心は〈流れ〉だ。AI実装で先端を行く著者が、数式ではなく言葉で、拡散モデルなどのしくみを明快に伝える画期的入門書！

抜粋：水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ。高次元空間とはどんな世界なのか、拡散モデルなどの流れの数理はどのように生成AIを実現したのか。AI実装で先端を行く著者が、数式ではなく言葉で、重要な概念の意味を伝える画期的入門書！ ■著者からのメッセージ人工知能をつくろうと考える場合、記憶が重要な要素になります。そして、人のもつ記憶において連想記憶の能力が重要…

書籍詳細

書籍のレビュー・概要

生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる

著者略歴

目次

本文紹介

生成AIのしくみ〈流れ〉が画像・音声・動画をつくる