【人工知能・深層学習】論文紹介:Reasoning Models Generate Societies of Thought

>100 Views

February 01, 26

スライド概要

【学生の情報】:D3 安木駿介、https://snskysk.github.io/https://www.docswell.com/user/snskysk

【対象論文】:
Reasoning Models Generate Societies of Thought

【注意書き】:研究室内で発表に利用したものです。自分用のメモも兼ねていますので、情報が混みあっています。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。**資料の転用は禁止しております。**

profile-image

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。 最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。 また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。 研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。 ご興味をお持ちの方は、HPをご確認ください。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

論文紹介 Reasoning Models Generate Societies of Thought 2026/01/31 瀧研D3 安木 駿介

2.

紹介する論文 論文 Reasoning Models Generate Societies of Thought (推論モデルは思考の社会を生成する) 概要 DeepSeek-R1やQwQ-32Bのような最新の推論モデルが高い性能を発揮する背景 にあるメカニズムを、「思考の社会(Society of Thought)」という社会的・対話 的なプロセスのシミュレーションとして説明 機関 Google、シカゴ大学、サンタフェ研究所 2

3.

目次 • 紹介する論文 • 導入・背景 • 現象の観測~会話的行動と役割~ • 因果性の検証~ステアリング実験~ • 内部構造~多様性と専門性~ • 創発のメカニズム~強化学習~ • 議論と展望 3

4.

導入・背景

5.

1年前の振り返り • LLMの「アハ体験(Aha Moments)」が、擬人化されたトーンや不確実性の変化として観測で きることを確認した • Understanding Aha Moments: from External Observations to Internal Mechanisms • 原論文 Submitted on 2025/04/03 https://arxiv.org/abs/2504.02956 Aha Momentsの論文では、推論の停滞を打破する瞬間に、 モデルが自己対話的な振る舞い(擬人化)を見せることが示唆されていた。 5

6.

この1年の変化:推論モデルの台頭 • その後1年で、DeepSeek-R1やOpenAI oシリーズなど、「推論(Reasoning)」に特化した モデルが急速に普及。 変化・発見 • Test-time compute(テスト時計算)の概念の普及。 • 「考えさせる(Chain of Thoughtを長くする)」ことで性能が上がることはわかった。 問い しかし、その長いCoTの中で、モデルは一体「何を」しているのか? 6

7.

単なる計算量の増加か、質的変化か? • 従来の理解では「計算ステップ数が増えたから精度が上がった」と考えられてきた • 一方で、本論文は「思考プロセスの質的転換」を指摘 性能向上の要因に関する見解 従来の仮説 本論文の仮説 直列的な計算量の増加 社会的・対話的なプロセスのシミュレーション (Society of Thought) 7

8.

本研究の核心的な主張 • 高度な推論能力は、モデル内部での「多重人格的な対話」と「視点の多様性」から創発する。 従来の理解 本論文の発見 LLM LLM 提案者 批判者 1つのLLM = 単一エージェント 調停者 etc… 8

9.

現象の観測 ~会話的行動と役割~

10.

推論モデルは「会話」をしている • 推論モデル(DeepSeek-R1等)の思考プロセスは、指示追従モデルに比べて圧倒的に「会話的」 質問応答 視点の転換 和解 対立 推論モデルでは「質問応答」「視点の転換」「対立」「和解」といったアクションが頻発 10

11.

思考の中の社会的役割 (1) • 推論モデルの会話的な振る舞いは、単に独り言を言っているのではなく、社会的な相互作用 (情報のやり取りや感情の表出)を行っている。 BalesのIPA分析に基づき、推論モデルが「情報の提供」だけでなく 「情報の要求」や「感情的反応(同意・反対)」をバランスよく行っていることを示している 11

12.

思考の中の社会的役割 (2) • 相反する役割(要求⇔提供、肯定⇔否定)がセットで現れる • =「対話」が成立している証拠 ジャカード係数が高いことは、片方の役割が出るともう片方も出る(=対話的構造がある)ことを意味する。 12

13.

内部に潜む「視点」の数 • 推論トレース(思考プロセス)の中には、複数の「仮想的な話者(視点)」が存在している。 LLM判定により、一つの回答生成過程で平均して複数の視点が切り替わっていることを示している。 13

14.

難問ほど「会議」が長引く • 問題が難しくなるほど、モデルはより頻繁に会話的行動や役割分担を行う。 難易度(横軸)が上がると行動頻度(縦軸)が上がる相関を示す。 これは会話行動が単なるスタイルではなく、問題解決のための機能であることを示唆。 14

15.

現象の観測~会話的行動と役割~:まとめ まとめ 推論モデルの「思考の連鎖」の実態は、独り言ではなく、 「脳内会議(Internal Meeting)」に近いものである。 15

16.

因果性の検証 ~ステアリング実験~

17.

会話的な特徴に意味があるのかを確かめたい 問い • 会話的な特徴は、推論の結果として出ているだけか? • それとも推論を助けているのか? 方法 これを確かめるために「特徴量の介入操作(ステアリング)」を行う。 17

18.

「アハ体験」の特徴量:Feature 30939 • DeepSeek-R1の内部から、「おっと(Oh!)」「待てよ(Wait)」といった気づきに対応する 特徴量が特定された この特徴量が、会話的な文脈で発火することを確認。 18

19.

会話的特徴を強めると賢くなる • この特徴量(Feature 30939)を強制的に活性化させると、計算タスクの正答率が劇的に向上 しました。 b: 会話的特徴量のステアリング強度を上げると精度が上がる。 c: ランダムな特徴量や非会話的特徴量ではこの効果は出ない=会話的特徴量が特異的に重要。 19

20.

なぜ賢くなるのか?:認知戦略の誘発 • 会話的特徴を刺激すると、検証(Verification)や後戻り(Backtracking)といった有効な 認知戦略が増加。 ステアリングにより、思考の修正や確認作業が増えていることを示す。 20

21.

因果のパス解析 • 「会話的特徴の活性化」→「認知戦略の実行」→「正答率向上」という因果関係が立証された。 会話行動が直接答えを出すのではなく、適切な思考戦略を引き出すトリガーになっている。 21

22.

因果性の検証~ステアリング実験~:まとめ まとめ 内部的な対話(Society of Thought)は、高度な認知戦略 を起動するための「制御信号」として機能している。 22

23.

内部構造 ~多様性と専門性~

24.

モデルの中に誰がいるのか? • モデル内部の「仮想的な人格」は、どれくらい多様なのかを分析。 ビッグファイブ(性格特性)の分布。推論モデルは多様な性格(特に神経症傾向や外向性など)を内包している。 24

25.

専門家の召喚 • 異なる専門性を持つペルソナが、文脈に応じて動的に呼び出される。 数学者、プログラマー、懐疑論者など、異なる専門性を持つ視点がトレース内に混在している。 25

26.

脳内会議の可視化 • ステアリングを行うと、実際にテキスト上で視点が切り替わり、議論が始まる。 具体的なテキスト例。「Wait, let me check...」のように、別の視点が介入する。 26

27.

内部状態の多様化 • 会話的特徴を刺激すると、モデル内部で活性化するニューロン(特徴量)のバリエーションが 一気に広がる。 脳内会議を強制すると、多様な性格や専門性に関連する回路がオンになる=探索範囲が広がる。 27

28.

内部構造~多様性と専門性~:まとめ まとめ 推論モデルは単一の知性ではなく、多様な専門家と性格を 持つエージェントの集合体として振る舞うことで、問題を 多角的に検討している。 28

29.

創発のメカニズム ~強化学習~

30.

集合体として振る舞うことは、誰が教えたのか? 発見 このような「脳内会議」は、人間が手取り足取り教えたもの ではなく、強化学習によって自発的に創発した。 30

31.

精度の向上と会話の発生 • 正解することだけを報酬として学習させると、精度向上に伴って会話的行動が勝手に増えていく。 a: 会話データで事前学習(赤線)すると学習が速い。 b: 普通の学習(青線)でも、ステップが進むと会話行動(点線)が急増する。 31

32.

思考の進化プロセス • 学習初期は一本道だった思考が、中期には「We」という言葉を使い、議論を始める。 Step 40(初期)とStep 120(中期)の思考トレース比較。 32

33.

性格の分化 • 学習が進むにつれ、無個性だったペルソナが、特定の役割(アイデア出し役、批判役など)に分化。 再掲 役割分担が自然発生する様子。 33

34.

創発のメカニズム~強化学習~:まとめ まとめ 「思考の社会」は、困難な問題を解くために知性が Convergent Evolutionする必然的な形態である可能性がある。 34

35.

議論と展望

36.

全体のまとめ 現象 推論モデルは内部で「会話」し、社会的役割を演じている。 機能 その会話が認知戦略(検証、修正)を起動し、精度を高める。 構造 内部には多様な性格・専門性を持つペルソナが存在する。 起源 これは強化学習により自然に創発する。 36

37.

ビジネス・実務トレンドとの接続 問い • 現在、LangChainやAutoGenなどを用いて「外部的に複数のAIエージェントを組み合わせる」アプローチが 流行している。こうしたトレンドへの影響は? 考察 • コスト効率: 外部エージェントを沢山立てなくても、モデル内部の「多重人格」をうまく引き出 すプロンプトやファインチューニングができれば、単体モデルで同等の推論が可能かもしれない。 37

38.

おわりに • 大規模モデルの進化は「計算力の向上」だけでなく、「内部的な社会化」のプロセスを含んでいる。 • 昨年の「アハ体験」の研究から、今年は「思考の社会(集団の議論)」へと理解が深まった。 • 次は、この「社会」をどう設計・制御するかが問われる。 38