【人工知能・深層学習】論文紹介:Nested Learning: The Illusion of Deep Learning Architectures

-- Views

December 13, 25

スライド概要

【学生の情報】:D3 安木駿介、https://snskysk.github.io/https://www.docswell.com/user/snskysk

【対象論文】:
Nested Learning: The Illusion of Deep Learning Architectures
(NeurIPS 2025)

【注意書き】:研究室内で発表に利用したものです。自分用のメモも兼ねていますので、情報が混みあっています。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。**資料の転用は禁止しております。**

profile-image

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

論文紹介 Nested Learning: The Illusion of Deep Learning Architectures 2025/12/13 瀧研D3 安木 駿介

2.

目次 • 紹介する論文 • 導入・背景 • 理論 • 実験 • 議論・結論 2

3.

紹介する論文 • Nested Learning: The Illusion of Deep Learning Architectures 論文 Nested Learning: The Illusion of Deep Learning Architectures 概要 「アーキテクチャ」と「最適化」の境界線を消滅させる新たなパラダイム 出典 NeurIPS 2025 (Google Research) 3

4.

導入・背景

5.

[前提知識] 現状のDeep Learningのパラダイム • 我々は「静的なアーキテクチャ」と「外部のオプティマイザ」を別物として扱っている。 アーキテクチャ 重みの基本更新式 学習される対象 学習させる主体 𝑤𝑡+1 = 𝑤𝑡 − 𝜂∇𝐿 一見合理的でモジュール性が高い仕組みだが、実はこの「分離」こそが、 現在のAIが抱えるある重大な欠陥の原因になっていると筆者らは指摘 5

6.

現代のLLMが抱える「anterograde amnesia(前向性健忘)」 • LLMはPre-training後は「永遠の現在」しか経験できず、成長できない。 6

7.

論文の核心 "The Illusion" • 「学習」と「推論」の区別は幻想であり、すべては「入れ子状の最適化」である。 静的なブロック Optimizer 「『推論』と呼んでいる処理は、実は『超高速な学習』そのものである」という見方を提示。 7 「P.S. Attention層は、自分自身の内部パラメータを、勾配降下法でリアルタイムに最適化している」と数学的に解釈

8.

Nested Learningの公理: Associative Memory (連想記憶) • 学習とは、データ(Key, Value)の関係性を「圧縮」するメモリ ℳ を獲得する最適化問題である。 Context Flow(データ) ◼ 定義 (Definition 1) 連想記憶 ℳとは、キー 𝑲 を値 𝑽 にマッピングする演算子 Key(𝐾) Value (𝑉) その獲得は以下の最適化問題として定式化される: ሚ ℳ ∗ = arg 𝑚𝑖𝑛 ℳ ℒ(ℳ 𝐾 ; 𝑉) Memory ℳ 関係性を圧縮・学習 Prediction / Retrieval <数式の構成要素> • ℳ: メモリ (重み行列, Attention状態) • 𝑲, 𝑽: 入力データ (トークン, 勾配) • ℒ: 目的関数(Loss) • 𝒂𝒓𝒈 𝒎𝒊𝒏: 最適化(学習プロセス) この「𝑲」と「𝑽」に何を入れるかで、モデルの役割が変わる。 ・ Tokens → 言語モデル (Attention, RNN) ・ Gradients → オプティマイザ (Momentum, Adam) → 「モデル」も「Optimizer」も、数理的には同じ最適化問題である! 8

9.

Softmax Attentionも「最適化」なのか? • 論文中の数式により、勾配降下法であることが証明済み。 Linear Attention Softmax Attention 明示的な勾配降下法と完全に数式が一致する。 勾配の履歴を全て保持する「カーネル化」された最適化である。 ロジック ロジック 1. 通常の実装:リカレントにメモリ行列ℳを更新する。 ℳ𝑡 = ℳ𝑡−1 + 𝑣𝑡 𝑘𝑡⊤ 1. 課題: Linear Attentionはメモリ容量が固定(𝒅 × 𝒅行列) 2. NLの視点: 目的関数ℒを定義し、勾配降下法を適用。 2. 解決策: 過去の全ての更新(勾配情報𝒌𝒕 , 𝒗𝒕 )を捨てずに 保持し、推論時(Query時)にまとめて計算する。 𝑡 • 目的関数: ℒ ℳ = −⟨ ℳ; 𝒌𝒕 , 𝒗𝒕 ⟩ • 勾配: 𝛁ℳ ℒ = −𝒗𝒕 𝒌⊤ 𝒕 • 更新式: ℳ𝒕 ⟵ ℳ𝒕−𝟏 − 𝜼𝛁ℒ 3. 結論: 学習率𝜼 = 𝟏のとき、 Linear Attentionは勾配降下法と数学的に等価である。 結論 𝑂𝑢𝑡𝑝𝑢𝑡 = ෍ 𝐾𝑒𝑟𝑛𝑒𝑙 𝑞, 𝑘𝑖 𝑣𝑖 𝑖=1 3. NLの視点: Softmax関数をカーネル(類似度関数)として 用いた場合の、連想記憶問題の解表現である。 これは「パラメータℳを明示的に持たず、データ自体をメモリとす る」ノンパラメトリックな最適化とみなせる。 ሚ どちらも論文中の「定義1:連想記憶(ℳ ∗ = 𝒂𝒓𝒈 𝑚𝑖𝑛 ℳ ℒ (ℳ 𝐾 ; 𝑉))」の最適化問題を解いていることに変わりはない。 Linear: 勾配を固定サイズの行列ℳに圧縮する Softmax: 勾配を圧縮せず、そのまま保持する 9

10.

理論

11.

Deep Optimizers (1) - Momentumの再解釈 • オプティマイザもまた、学習するモデルである 従来の視点 The Heuristic Approach Nested Learningの視点 The Optimization Approach • Momentumを「慣性」や「過去の平均」として解釈 • Momentum 𝑚を「勾配情報を圧縮・記憶する1層のメモリモデル」と見なす • 物理的なボールが転がるイメージ • オプティマイザ自体が、以下の内部目的関数を最小化している 数式:Standard Update 数式:Internal Optimization Problem 𝑚𝑡+1 = 𝛼 𝑚𝑡 − 𝜂 ∇ℒ(𝜃𝑡 ) Decay Current Grad 𝜃𝑡+1 = 𝜃𝑡 + 𝑚𝑡+1 ゴール:メモリ𝒎と現在の勾配 𝛁ℒ の相関(内積)の最大化(=Lossの最小化) 𝑚𝑖𝑛 ⟨ 𝑚, ∇ℒ 𝜃 ⊤ ⟩ 𝑚 𝑡 Correlation Loss 導出:この目的関数に対して勾配降下法(GD)を適用すると... 限界: なぜこの更新式なのか?経験則以上の説明が難しい。 洞察 𝑚𝑛𝑒𝑤 ⟵ mold − 𝜂𝑜𝑝𝑡 ∇𝑚 𝐿𝑜𝑠𝑠 = 𝑚𝑜𝑙𝑑 − 𝜂𝑜𝑝𝑡 ∇ℒ(𝜃𝑡 ) Momentumとは、勾配流をベクトル 𝒎 に圧縮するための連想記憶モデルである 11

12.

Deep Optimizers (2) - オプティマイザの進化 • オプティマイザを「モデル」と見なせば、MLPや非線形関数で強化できる。 Standard Momentum Deep Momentum Non-linear Optimizer (Linear) (DMGD) [提案] (e.g., Muon) 入力 Linear Matrix 出力 入力 𝑔 𝑀 𝑚 𝑔 MLP 出力 入力 Memory Update Raw memory Nonlinearity 出力 𝑚 𝑔 𝑀 𝑚 𝜎(⋅) 𝜎(𝑚) ✓ Value-less & Linear。単なる行列演算。 ✓ More Capacity。勾配の複雑 なダイナミクスを学習可能。 数式 𝑚 ⟵ 𝛼𝑚 − ∇ℒ ✓ Non-linear Projection ✓ 例:Newton-Schulz反復 数式 数式 𝑚𝑛𝑒𝑤 = 𝑀𝐿𝑃(𝑚𝑜𝑙𝑑 , ∇ℒ) 𝑊𝑛𝑒𝑤 = 𝑊 + 𝜎(𝑚𝑛𝑒𝑤 ) Nested Learningのパラダイムは、新しいオプティマイザを設計するための『設計図』を与えてくれる 12

13.

アーキテクチャの分解と階層性 • モデルは単なる関数の合成ではなく、異なる「更新周波数」を持つソルバーの集合体である。 Level 1 (Lowest Freq) Pre-trained Weights (𝑊) 更新頻度: 𝑓 ≈ 0 (学習後は固定) 役割: 長期記憶 / General Knowledge Level 2 (Mid Freq) Context Weights / Fast Weights (HOPE等で導入) 更新頻度: 𝑓 ≈ 𝑀𝑖𝑑 (数トークン〜数episodeごとに更新) 役割: タスク適応 / 短期記憶 Level 3 (Highest Freq) Attention / Activations 更新頻度: 𝑓 = 𝐻𝑖𝑔ℎ(毎ステップ更新) 役割: 即時処理 / 作業記憶 従来のモデルは「超高速(Attention)」と「超低速(Weights)」の両極端しかなかった。 13 NLは、その中間に適切な更新頻度を持つソルバーを配置し、より脳に近い「連続的な記憶システム」を作ろうという試み

14.

In-Context Learning (ICL) の正体 • ICLは魔法ではなく、高周波レイヤーにおける「Context Flowの圧縮プロセス」である。 The illusion(従来の視点) 固定された箱と魔法 入力 モデル The Mechanism (NLの視点) 高速な最適化ループ 入力 出力 Fast Optimizer (Attention) Dataset (𝐾, 𝑉) Few-shot Context Prediction 出力 Apple → Red Lime → Green Corn → 創発? Yellow 𝑀 コンテキスト フローの圧縮 モデルは『固定』などされておらず、高周波のレイヤー(Attention)においては、 推論のたびに毎回、猛烈なスピードで学習(Optimization)を回している。(=コンテキストフローの圧縮) 14

15.

提案手法 HOPE

16.

HOPE アーキテクチャの概要 • 自らの更新則自体を学習する "Self-Modifying" なモデル。 Self-Modifying Titans (自己修正) 更新則を固定せず、コンテキストに応じて動的に生成する。 Multi-Frequency FFNs (階層的メモリ) Continuum Memory System 短期(16)・中期(1M)・長期(More) の記憶を異なる層で分担して保持。 Deep Memory & Performance • 単純な行列演算ではなく、MLPを用いた深い記憶更新。 • 1.3BパラメータでSOTA達成。 16

17.

Continuum Memory System • 短期記憶と長期記憶の二分法を捨て、連続的な周波数スペクトルで記憶を管理する。 「0か1か」。超高速のAttentionか、不動の重みか。 その中間(数分前の会話など)を保持する仕組みがない。 「グラデーション」。短期・中期・長期の異なるリズムで更新 されるメモリが共存している。 17

18.

Continuum Memory System: 記憶の定着メカニズム アルゴリズムの実体: Eq. 31 常に学習するのではなく、「周期(C)」が来た時だけ更新する。 (𝑙) (𝑙) 𝜃𝑡+1 = 𝜃𝑡 − 𝜂 ෍ ∇ℒ 𝜃; 𝑥𝜏 𝑖𝑓 𝑡 ≡ 0 (𝑚𝑜𝑑 𝐶 𝑙 ) 𝜏 Multi-Level Update Cycles Time (Steps) → 1 2 3 4 5 6 7 8・・・ Level 1 (Slow) Chunk=∞ [---------------Wait---------------] …(長期記憶) Level 2 (Mid) Chunk=4 Level 3 (Fast) Chunk=1 [⇓] 蓄積・定着 [-------Wait-------] [Update!] …まとめて更新(中期記憶) [⇓] [⇓] [⇓] [⇓] [⇓] [⇓] [⇓] [⇓] [U] [U] [U] [U] [U] [U] [U] [U] ... 頻繁に更新 (短期記憶) 解釈: 記憶の固定化 1. Fast層 (海馬的):入力を即座に処理・記憶するが、次の入力ですぐ上書きされる。 2. Slow層 (皮質的): Fast層で処理された情報を「圧縮」して、時間をかけてゆっくり構造化する。 → これにより「新しい知識」が長期記憶として定着する 18

19.

実験

20.

実験結果 - Language Modeling • Transformer++やMamba派生(Titans)と比較し、少ないパラメータで高性能。 20

21.

議論・結論

22.

議論 • Nested Learningがもたらす「解釈可能性」への示唆 • 「どのニューロンが発火したか」ではなく「どの最適化問題が解かれたか」を見るべきでは ないか? • AGIと「学習する能力の学習」 • HOPEは「更新則」の学習を可能にしたが、Backpropagation自体も、より高次の最適化 プロセスの一部に過ぎないのか? • 現在のBackpropは固定されているが、より高度なAGIのためには、オプティマイザ自 体が動的に進化する必要があるのではないか? • ハードウェアへの影響:現在のGPUは「行列演算」に特化しているが、NLのような 「局所的なループ」が大量にあるモデルには、別のHWが必要になるのでは? 22

23.

結論 • Deep Learningは「静的なグラフ」から「動的な最適化システム」へ進化する。 まとめ • アーキテクチャとオプティマイザは等価である(Nested Learning)。 • SGDやAdamは「浅いメモリネットワーク」に過ぎない。 • HOPEは、更新則自体を学習し、複数の時間スケールを持つ次世代モデルである。 展望 「層を深くする」時代から、「最適化の階層(Nested Levels)を深くする」時代へ。 23

24.

以上