書籍のレビュー・概要
水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ。高次元空間とはどんな世界なのか、拡散モデルなどの流れの数理はどのように生成AIを実現したのか。AI実装で先端を行く著者が、数式ではなく言葉で、重要な概念の意味を伝える画期的入門書! ■著者からのメッセージ 人工知能をつくろうと考える場合、記憶が重要な要素になります。そして、人のもつ記憶において連想記憶の能力が重要です。人の脳で連想記憶がどのようなしくみで実現されているのか、現在の脳科学でもよくわからないところが多いのが現状です。その連想記憶をコンピュータ上で実現するにはどうしたらよいかを考えて、現在の生成AIにつながる技術が生まれてきました。特にエネルギーやそれに紐づく確率という物理の概念と結びついて発展してきました。その研究が、2024年のノーベル物理学賞にもつながりました。 生成AIというと、つくりだす能力が注目されていますが、エネルギーにもとづき生成するモデルがエネルギーが最小になる状態を探索しているという観点から見ると、探索する能力があるということになります。広大な空間の中から答えを探すのはとても難しいことですが、人間の直観はそれを行なっています。かつてのAIにはそうした探索能力はありませんでした。しかし、生成AIが示した〈流れ〉を制御する技術を使えば、これまでの手法では困難だった問題においても効率的に探索することができるのではと考えます。 こうした観点は、人の脳の理解にも役に立つ可能性があるかもしれません。脳の学習・推論などの処理のメカニズムはよくわかっていません。〈流れ〉による生成は、脳においても活かされているのかもしれません。すべての情報がなくても局所的な情報だけで学習できたり、並列に情報を処理したり、〈流れ〉による生成には、脳内の処理で実現可能性が高い要素で構成されています。また、脳の処理は、連続的に入力がある中で、次の出力を得ていく〈流れ〉があります。物理のエネルギーの概念をもとにしたモデルと関係している可能性はあると思います。 膨大な空間中の流れを制御することは長年難しかったことです。しかし、本書で紹介する拡散モデルやフローマッチングは、画像や音声、動画などの生成で具体的な成果を出していますから、今後、脳のしくみに迫る研究など他の分野での研究も発展するかもしれません。 本書では、数式を用いずに、生成AIの歴史から、こうした今後の発展の可能性までを紹介しました。ぜひご覧ください。 ■著者・岡野原 大輔氏による本書のサポートページ https://hillbig.github.io/flow-generative-models/