---
title: 井の中の蛙〜AIエージェントの内省〜
tags: 
author: [やぎ](https://docswell.com/user/7707589)
site: [Docswell](https://www.docswell.com/)
thumbnail: https://bcdn.docswell.com/page/GEWGZVWQJ2.jpg?width=480
description: AIエージェントの内省について話しました
published: April 22, 26
canonical: https://docswell.com/s/7707589/5MQ79W-2026-04-22-210838
---
# Page. 1

![Page Image](https://bcdn.docswell.com/page/GEWGZVWQJ2.jpg)

井の中の蛙
〜AIエージェントの内省〜


# Page. 2

![Page Image](https://bcdn.docswell.com/page/47ZL1453J3.jpg)

自己紹介
やぎ
かえるくん のともだち
かえるくん


# Page. 3

![Page Image](https://bcdn.docswell.com/page/YJ6WL39ZJV.jpg)

夢は
大海に行くこと


# Page. 4

![Page Image](https://bcdn.docswell.com/page/GJ5M1LN9J4.jpg)

Chapter1
内省の限界


# Page. 5

![Page Image](https://bcdn.docswell.com/page/LE3W1L22E5.jpg)

いつも
1人で練習していた


# Page. 6

![Page Image](https://bcdn.docswell.com/page/8EDKXNZ67G.jpg)

友人と議論しても
いいアイデアは出てこなかった


# Page. 7

![Page Image](https://bcdn.docswell.com/page/V7PKP5YZJ8.jpg)

なぜでしょうか？


# Page. 8

![Page Image](https://bcdn.docswell.com/page/2JVV2PGMJQ.jpg)

内省とは
内省（Self-Reflection）とは、
LLMが自分の出力を自分自身で、評価・修正する仕組み
Madaan et.al.（2023）Self-Refine: Iterative Refinement with Self-Feedback


# Page. 9

![Page Image](https://bcdn.docswell.com/page/5EGLRP8XJL.jpg)

内省の例
①Self-Refine 出力を自分で批判し、反復改善する手法
feedback
LLM
Output
LLM(批判)
②LLM-as-a-Judge 別の LLM に出力を評価させる手法
feedback
LLM
Output
LLM(評価)


# Page. 10

![Page Image](https://bcdn.docswell.com/page/4JQYV2957P.jpg)

の
精度は
よくなるのか？
①Self-Refine 出力を自分で批判し、反復改善する手法
feeda
LLM
Output
LLM(批判)
②LLM-as-a-Judge 別の LLM に出力を評価させる手法
feeda
LLM
Output
LLM(評価)


# Page. 11

![Page Image](https://bcdn.docswell.com/page/K74WMLXVE1.jpg)

内省の限界
単体の LLM による自己内省は効かない
d&#039;Aliberti et al. (2026) によると、
&quot;Aha! モーメント&quot; は精度改善に寄与しない。
Huang et.al.(2024) Large Language Models Cannot Self-Correct Reasoning Yet
同じモデル同士の議論は効かない
debateでは精度は上がらず、多数決の効果となる。
Wu et al. (2025)によると、議論の成功の上限は、
参加者の中で最も強いモデルによって決まる。
Choi et.al.(2025) Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?


# Page. 12

![Page Image](https://bcdn.docswell.com/page/LJ1Y8LN4EG.jpg)

内省
内省では
内部知識を超えれない
ない
でな
でい


# Page. 13

![Page Image](https://bcdn.docswell.com/page/GJWGZV4Z72.jpg)

Chapter2
外部情報


# Page. 14

![Page Image](https://bcdn.docswell.com/page/4EZL142L73.jpg)

３匹の師匠から
学んだ


# Page. 15

![Page Image](https://bcdn.docswell.com/page/Y76WL3VM7V.jpg)

見違えるほど伸びた


# Page. 16

![Page Image](https://bcdn.docswell.com/page/G75M1LDQ74.jpg)

なぜでしょうか？


# Page. 17

![Page Image](https://bcdn.docswell.com/page/9J291L8WER.jpg)

外部情報が大事
LLMの自己修正が機能するのは、外部フィードバックがある
場合だけである。
＜よくあるリーク例＞
LLM：答えは25です
（間違っていることを知っている時だけ）
人間：間違ってます。考え直して。
実運用では正解を知らないので、再現できない。
Kamoi et.al.（2024）When Can LLMs Actually Correct Their Own Mistakes? 
A Critical Survey of Self-Correction of LLMs


# Page. 18

![Page Image](https://bcdn.docswell.com/page/DEY4ZQ69JM.jpg)

外部情報を取り込む3つの手法
①Self-RAG 文書検索 + 検索結果の内省的評価
Asai et.al.(2023)
SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION
②Reflexion Tool実行 + 失敗の反省
Shinn et.al.(2023)
Reflexion: Language Agents with Verbal Reinforcement Learning
③Human-in-the-Loop 人間入力 + 自己修正
よくある実装パターン（厳密に論文があるわけではない）


# Page. 19

![Page Image](https://bcdn.docswell.com/page/VJNY3KZD78.jpg)

内省
外部情報
内省は
省
外部情報で向上する
るるで


# Page. 20

![Page Image](https://bcdn.docswell.com/page/YE9P9VZ8J3.jpg)

Chapter3
暗黙のFB


# Page. 21

![Page Image](https://bcdn.docswell.com/page/GE8D9P1ZED.jpg)

フクロウから学ぶのが
一番伸びた


# Page. 22

![Page Image](https://bcdn.docswell.com/page/LELMW1Q17R.jpg)

フクロウは全然来ない。
1人で練習するしかなかった。


# Page. 23

![Page Image](https://bcdn.docswell.com/page/4JMY9W15JW.jpg)

どうしたらいい？


# Page. 24

![Page Image](https://bcdn.docswell.com/page/PJR9GYLZ79.jpg)

暗黙のFB
精度向上には人間FBが不可欠 だが、収集にコストがかかる。
明示的FB
暗黙的FB
ユーザーに評価を求める
高品質・少量
評価の意識なく自然発生
ノイジー・大量


# Page. 25

![Page Image](https://bcdn.docswell.com/page/PEXQXGW1JX.jpg)

RAG vs Google
検索手法
Embedding
PageRank
学習データ
事前データ
ユーザーの行動
（クリック率など）
改善サイクル
手動
自動
精度差 ＝ ユーザー行動からの学習


# Page. 26

![Page Image](https://bcdn.docswell.com/page/3EK9W4VMED.jpg)

推薦システム → LLM
クリック
滞在時間
スキップ
再検索
離脱
Accept
会話継続
再生成
再質問
会話終了


# Page. 27

![Page Image](https://bcdn.docswell.com/page/L73W1LM275.jpg)

事例
ユーザーの accept/reject をリアルタイムで学習した
オンライン強化学習
accept → +0.75 reject → -0.25
silent → 0
https://cursor.com/blog/tab-rl
結果：Accept率 +28%


# Page. 28

![Page Image](https://bcdn.docswell.com/page/87DKXN66JG.jpg)

の
事
暗黙のFBが大事


# Page. 29

![Page Image](https://bcdn.docswell.com/page/VJPKPNZZE8.jpg)

エピローグ


# Page. 30

![Page Image](https://bcdn.docswell.com/page/2EVV2KWMEQ.jpg)

あらゆるところに
学びの種があると気づいた


# Page. 31

![Page Image](https://bcdn.docswell.com/page/57GLRQDXEL.jpg)

夢に近づいた


# Page. 32

![Page Image](https://bcdn.docswell.com/page/4EQYVK15JP.jpg)

井の中の蛙 大海を知らず


# Page. 33

![Page Image](https://bcdn.docswell.com/page/KJ4WMPRV71.jpg)

されど空の青さを知る


