【DL輪読会】Reasoning Models Generate Societies of Thought

-- Views

February 05, 26

スライド概要

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

各ページのテキスト
1.

DEEP LEARNING JP [DL Papers] Reasoning Models Generate Societies of Thought 高城 頌太(東京大学 工学系研究科 松尾研 D2) http://deeplearning.jp/ 1

2.

書誌情報 タイトル: Reasoning Models Generate Societies of Thought https://arxiv.org/abs/2601.10825v1 著者: Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans Google, Paradigms of Intelligence Team, University of Chicago, Santa Fe Institute 概要: 推論モデルは内部でsociety of thought(思考の社会)を暗黙にシミュレートしているという仮 説を包括的に検証した論文 2

3.

Google Paradigms of Intelligence Teamとは? Paradigms of Intelligence Team(Pi) 知能が成立する基本原理と、どんな条件で知能が生まれるのかを研究 進化が長い時間をかけて知能を生んだように、物理・生物・社会科学の知見を取り入れたボトムアップアプローチで、 より効率的で適応力が高く、人間に役立つAIの開発を目指す 参考文献(Piの中心的な理念を示す文献) AI Is Evolving - And Changing Our Understanding of Intelligence(現在は知能の天動説と表現) What Is Intelligence? (チームリーダーのBlaiseが執筆) その他の論文(Published by Pi) The unreasonable effectiveness of pattern matching Does Integrated Information Theory (IIT) make experimental predictions about consciousness? Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning 3

4.

背景: 推論モデルはCoTを強化することで難しい問題を解くことができる • 非常に長いChain-of-Thoughを行うように強化学習することによって、OpenAI o1や DeepSeek R1は推論時に深く考えれば考えるほど性能向上に寄与するようになった → 推論スケーリング時代のきっかけとなる ここでの疑問: なぜCoTで性能が上がるのか?ただ単純に長く出力させることが性能向上に寄与する? https://openai.com/index/learning-to-reason-with-llms/ 4 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

5.

仮説:LLM内部で思考の社会(society of thought)を形成している • 推論モデルは、単に長く独り言を出しているのではなく、内部で複数視点が会話し、対立し、 合意するような構造を暗黙に生成している • その思考の社会(society of thought)が、探索・検証・やり直しを引き起こし,精度向上を 生むのではないか 1つの推論トレースに複数の人格が現れる これらの仮説を 1. LLM as Judgeによる推論トレースの分析 2. SAEによる潜在変数の介入 3. 思考の社会を強化するようなRL をすることによって検証していく 5

6.

そもそも思考の社会(society of thought)をどのような指標で検証しているか • Conversational behaviours(会話的なふるまい) – 推論トレースの中に、会話で見られる行動が現れるか • Q&A(自問自答) • Perspective shift(視点転換) • Conflict(視点の衝突) • Reconciliation(統合) • Socio-emotional roles(社会感情的な役割) – 会話でよくある役割が同じ推論の中で共存しているか(BalesのIPAという社会心理学的指標) • Ask(尋ねる):意見/提案を求める • Give(与える):意見/提案を提示する • Positive(協調的):同意,合意 • Negative(対立的):不同意、対立、 • Implicit perspectives(暗黙の視点・性格) – 視点の数・セグメント分割 – 性格(Big 5) – それぞれの視点の多様性 6

7.

検証実験の全体像 1. 現象の観察: LLM as Judgeによる推論トレースの分析 2. 因果の検証: SAEによる潜在変数の介入 3. 応用可能性: RL中のダイナミクス/思考の社会を強化するようなRL 7

8.

検証実験の全体像 1. 現象の観察: LLM as Judgeによる推論トレースの分析 2. 因果の検証: SAEによる潜在変数の介入 3. 応用可能性: RL中のダイナミクス/思考の社会を強化するようなRL 8

9.

推論モデルほど会話行動が多い • Deepseek-R1, QwQ-32Bはその他のInstruct Modelと比較して優位に会話行動 が多くなっている(左図) – 注目点としては,Instruct Modelはどのパラメータサイズでも一貫して会話行動が少ない • また,DeepSeek-R1 と QwQ-32B はいずれも社会的感情的な行動が多い(右図) – 尋ねたり, 対立や反対などの行動が多くなる – 一方でInstruct Modelは意見を与える傾向にあり,独白的な思考トレースが多い 9

10.

難しい問題ほど会話や社会的感情が顕著に現れる • 問題の複雑さが増すと会話的特徴や社会的感情がより頻繁に現れる – ブール式や基本的な論理推論を問うような簡単な問題では,会話的な振る舞いは少ない一方で, GPQA-DiamondやMath(Hard)のような問題では,顕著に会話的な振る舞いが増加する 10

11.

一人の独り言ではなく,複数の視点がいて性格や専門性がバラけている • 推論モデルは非推論モデルに比べて視点の数が多い(右図) • それぞれの視点は異なる性格を持っている(下左図) – 視点数を統一した時に性格のばらつきが大きい – ただ,誠実性だけはばらつきが少ない.チーム分析の研究でも,誠実性のば らつきが大きいチームは失敗し,外交性や不安傾向のばらつきがあるチームは 高いパフォーマンスを発揮できると方向されている • それぞれの視点は異なる専門性を持っている(下中央図/下右図) 11

12.

検証実験の全体像 1. 現象の観察: LLM as Judgeによる推論トレースの分析 2. 因果の検証: SAEによる潜在変数の介入 3. 応用可能性: RL中のダイナミクス/思考の社会を強化するようなRL 12

13.

会話機能の強化によって推論性能が向上 • Deepseek-R1をSAEによって会話特徴に関する特徴を見つける(左図) – Layer 15をSAEで学習, 32,768 個の特徴の中から会話文章で活性化する特徴を同定 – 特に驚き/気付き/承認に関する30939番目の特徴を抽出して介入実験を行う • 会話特徴を強化することで精度が約二倍に向上,逆に抑えると精度が劣化(右図) – Coundown Taskの精度を評価(4つの数字から四則演算と括弧で合計の数を作るタスク) – 会話行動も増加しており,会話行動と精度の因果関係がみられる 13

14.

会話行動は精度の媒介になっている • 会話特徴を強化することによって,Verification, Backtracking, Subgoal Setting, Backward Chainingと呼ばれる認知行動も増加する(左図) – これらは先行研究で推論能力と関係する能力だと報告されている • 会話特徴により直接的精度が向上した要因と認知行動が増えたことで間接的に向上した 二つの要因がある(右図) – 会話行動によって様々な副次的効果を生みそれらが間接的に精度に影響する 14

15.

補足: 介入実験の定性的評価 15

16.

検証実験の全体像 1. 現象の観察: LLM as Judgeによる推論トレースの分析 2. 因果の検証: SAEによる潜在変数の介入 3. 応用可能性: RL中のダイナミクス/思考の社会を強化するようなRL 16

17.

会話報酬を与えていないのにも関わらず会話行動が創発していく • RLの過程で会話的な振る舞いが増加していく – 会話的な振る舞いを表す指標が増加(右図) • マルチターンの会話データで事前にSFTを行うことにより収束が早くなる(左図) 17

18.

RLの学習過程で異なる性格の視点が創発する • 序盤は独白に近いトレースだったのが途中で複数視点のエージェントに分化していく – 序盤の視点は、高い誠実性、やや高い開放性と協調性、低めの外向性、そして特に低い不安傾向を持っている – 後半の視点は2つに分かれていて,1つは試行錯誤型の問題解決を重視し、もう1つは複数アプローチ間での問題解決 可能性についてメタ認知的に推論することに特化している – 試行錯誤エージェントは序盤のエージェントより外向性が低く協調性が高い一方、メタ認知型エージェントは開放性が高 く、誠実性は大幅に低い。 18

19.

議論 & まとめ • Deepseek-R1は単純にCoTを長くしているだけではなく、思考の社会(societies of thought)を生み出している • 推論トレースの長さを制御しても,様々なモデルサイズでも非推論モデルの場合はこのような 特徴は現れない • つまり,推論プロセスの最適化によって内的な「社会」をシミュレートすることを示している • 特筆すべきは,これらが単純な報酬最大化によって創発することである • これらの知見から,社会的スケーリング(social scaling)を研究する意義があるのではない か • 高性能な推論は思考の社会のなかに現れるという仮説に元にたつと,高度な知能を達成す るためには集団的な推論を最適化できるようなモデル/学習方法が必要となる可能性がある 19

20.

Thank you. 20