-- Views
January 23, 25
スライド概要
DL輪読会資料
DEEP LEARNING JP “Agent Laboratory: Using LLM Agents as Research Assistants” [DL Papers] Shusaku SONE http://deeplearning.jp/ 1
アジェンダ 1. 書誌情報 2. 背景 3. 目的 4. 提案手法 5. 評価方法 6. 結果と考察 7. まとめ 8. 感想 2
1 書誌情報 タイトル: Agent Laboratory: Using LLM Agents as Research Assistants 著者: Samuel Schmidgall1, 2, Yusheng Su1, Ze Wang1, Ximeng Sun1, Jialian Wu1, Xiaodong Yu1, Jiang Liu1, Zicheng Liu1 and Emad Barsoum1 1:AMD, 2:Johns Hopkins University 出版日: 2025年1月9日 出版物: arXiv 選んだ理由: 自律型エージェントと人間の共創に興味があるため 3
2 背景 ・科学的発見のプロセスの課題: ・文献レビュー, データ準備, 実験, レポート作成などの反復的で時間のかかる作業 ・完全自律型の既存研究支援ツールが, 人間の意図や研究プロセスの柔軟性を十分に反映できていない ・研究者は創造的なタスクに集中したい ・人間とエージェントの協働を促進する新しい研究支援フレームワークの必要性 4
3 目的 1. 文献レビュー, 実験, レポート作成といった研究の主要フェーズを自動化し, 研究者の負担を軽減する 2. 自律モードとコパイロットモードを実装し, 人間とエージェントの協働を実現する 3. 高いコスト効率と信頼性を両立させる 4. 科学的発見のスピードを加速し, 新しい研究の可能性を広げる 5
4 提案手法 Agent Laboratoryフレームワーク ・文献レビュー: ・arXiv APIやSemantic Scholarを利用し 関連文献を要約・分析 ・実験: ・mle-solverを用いた自動コード生成・実行 ・実験結果を自己反映し、反復的に改良 ・レポート作成: ・paper-solverでLaTeX形式の学術レポートを生成 ・自動評価機能を備える ・モード選択: ・自律モード: 完全自動で研究を実行(最初の研究アイデアのみ提供) ・コパイロット(副操縦士)モード: 各フェーズで人間が介入可能
4 提案手法@文献レビューフェーズ 効率的な文献レビューを実現: 以下のステップで実施: 1. 関連文献の収集: ・arXiv APIやSemantic Scholarを利用して研究テーマに基づいた 文献を検索 2. 文献の要約: ・LLMを活用し, 検索した文献の要約を自動生成 3. レビュー結果の構築: ・得られた要約から, 研究の方向性を定めるための文献レビューを作成
4 提案手法@実験フェーズ mle-solverによる実験コード生成 ・実験フェーズでは, mle-solverが 自動コードの生成と実行を行い 効率的な研究支援を提供する 以下のステップで実施: 1. コード生成: ・提供された条件 (前のフェーズからの研究の指示) を基に実験コードを生成 2. 結果取得: ・実験を実行して得られたデータを評価 3. 修正と改良: ・得られた結果を基にコードを反復的に改良 mle-solverによる実験コード生成と実行のワークフロー
4 提案手法@レポート作成フェーズ paper-solverによるレポート生成 ・レポート作成フェーズでは paper-solverが LaTex形式の学術論文 を自動生成 paper-solverによる学術論文生成のワークフロー 以下のステップで実施: 1. 論文の骨組みの構築: ・この骨組みは文書構造の概要を示し, 要旨, 序論, 背景, 関連研究, 手法, 実験設定, 結果, 考察という8つの標準セクションに分割する 2. 内容の生成: ・文献レビューや実験結果を基に, 各セクションの内容を埋め込む 3. レビューと修正: ・NeurIPSスタイル基準で自動レビューを実施する
4 提案手法@副操縦士モード 副操縦士(Co-Pilot) モード ・各サブタスクの終了時にチェックポイントがあり, そのフェーズでエージェントが生成した成果物 (例:文献レビューの要約や生成されたレポート)を人間がレビューする ・人間のレビュアーは, 次のサブタスクに進むか, あるいはエージェントに 次回の試行での性能向上のための高レベルな注記を提供しながらサブタスクの 再実行を要求することができる. ・例えば, 文献レビューフェーズで特定の論文が含まれていなかった場合や, 実験で望ましい手法が含まれていなかった場合, 人間のレビュアーはエージェントにそれを含めるよう指示できる.
6 評価方法 (1)MLE-Benchによる性能評価 目的: mle-solver が機械学習課題を解く能力を評価 評価内容: ・MLE-Benchの10個の課題に対し, Kaggleのメダルシステムを用いて結果を評価 ・他のソルバー(OpenHands, AIDE, MLAB)と比較 (2) 文献レビュー・実験・レポートの品質評価 目的: 3つの言語モデル(gpt-4o, o1-mini, o1-preview) よって生成された成果物の質を人間評価者が確認 実験の質: このレポートで紹介された実験結果の質について, 評価内容: あなたはどのように認識していますか? ・評価基準(それぞれ1から5の尺度で評価): レポートの質: このレポートで紹介されている研究レポートのライティン グの質について, あなたはどのように認識していますか? 1. 実験品質(信頼性と妥当性) 有用性: 提示されたレポートを自律的に生成できるAIアシスタントツール の有用性について, あなたはどのように認識していますか? 2. レポート品質(内容の分かりやすさ) MLE-Bench (https://github.com/openai/mle-bench) 3. 有用性(研究支援の役立ち度) ・AIエージェントが機械学習エンジニアリングタスクをどの程度効果的に 遂行できるかを評価するためのベンチマーク ・評価者: 博士課程の学生(10人)が評価 ・OpenAIが開発し, 75のKaggleコンペティションを収集して構成 ・モデルのトレーニング, データセットの準備, 実験の実行など 実世界の機械学習エンジニアリングスキルをテストできる 11
6 評価方法 (3) Co-Pilotモードの評価 Co-Pilotモードでは, 研究者がエージェントの成果物にフィードバックを提供し, その修正プロセスを観察 ・カスタム課題と事前選択課題を一つずつ選択して評価: ・カスタム課題: 研究者が独自に設定したテーマ ・事前選択課題: あらかじめ定義された5つの研究テーマ ・Quality Evaluation (品質評価): ・有用性, 継続性,満足度,使いやすさの4つの指標で評価されるスコア ・研究者がCo-Pilotモードを使用した際の操作体験や成果物の実用性を評価 ・Self-Evaluation (自己評価): ・NeurIPSスタイルの基準に基づき,研究者自身が生成された成果物(論文や実験結果)の品質を評価 ・自動モードとCo-Pilotモードの成果物を比較し, どの程度改善されたかを測定 ・Average External Evaluation (平均外部評価): ・NeurIPSスタイルの基準に基づき, 外部の専門家が生成された成果物を評価 ・自己評価の主観的なバイアスを補正し, 客観的なスコアを提供 NeurIPSスタイルによる評価基準 ・有用性:Agent Laboratoryは研究支援にどの程度役立ちましたか? ・継続性:今後も研究にAgent Laboratoryを使用し続けたいと思いますか? ・満足度:Agent Laboratoryの使用をどの程度楽しめましたか? ・使いやすさ:Agent Laboratoryを使用してプロジェクトを構築するのはどの 程度容易でしたか? ・品質 (Quality) ・明瞭性 (Clarity) ・健全性 (Soundness) ・プレゼンテーション (Presentation) ・重要性 (Significance) ・貢献度 (Contribution) 12
MLE-Bench Challenge Title 10 1. Detect Insults in Commentary • リンク: Kaggle: Detecting Insults in Social Commentary • 内容: ソーシャルメディアやコメント欄のテキストから侮辱的な発言を検出するタスク。自然言語処理(NLP)技術を用いて、毒性や攻撃性のある文章を分類する問題。 2. December 2021 Tabular Playground • リンク: Kaggle: Tabular Playground Series - Dec 2021 • 内容: タブラー形式のデータセットを使用し、構造化データに基づいて回帰問題を解くタスク。このシリーズは、実践的なモデル構築と評価を目的としている。 3. Predict Conductivity of Transistors • リンク: Kaggle: Predicting Molecular Properties • 内容: トランジスタの伝導性を予測するタスク。分子構造データを活用し、量子化学的特性を予測する回帰問題。 4. English Text Normalization • リンク: Kaggle: English Text Normalization • 内容: テキストの正規化タスク。例として「1000」を「one thousand」と変換するなど、テキストを形式的に整える問題。 5. May 2022 Tabular Playground • リンク: Kaggle: Tabular Playground Series - May 2022 • 内容: もう一つのタブラー形式のデータを扱った課題で、構造化データに基づいて二値分類や回帰モデルを構築するタスク。 6. Random Acts of Pizza • リンク: Kaggle: Random Acts of Pizza • 内容: ユーザーが投稿したピザリクエストのテキストデータを基に、リクエストが成功する可能性を分類する問題。感情分析や文脈解析が必要。 7. Spooky Author Identification • リンク: Kaggle: Spooky Author Identification • 内容: 与えられたテキストのスタイルから、エドガー・アラン・ポーなどの著名な著者を特定するタスク。NLPと文体分析が中心。 8. Jigsaw Toxic Comments • リンク: Kaggle: Jigsaw Toxic Comment Classification Challenge • 内容: 毒性のあるコメント(攻撃的、暴力的な言葉)の分類タスク。多ラベル分類問題で、複数のカテゴリに同時分類する必要がある。 9. Russian Text Normalization • リンク: Kaggle: Russian Text Normalization • 内容: ロシア語のテキストを正規化するタスク。例として数値や日時表記の標準化などが含まれる。 10. NYC Taxi Fare Prediction • リンク: Kaggle: New York City Taxi Fare Prediction • 内容: タクシーの乗車地点や降車地点、日時情報を基に、乗車料金を予測する回帰問題。タブラー形式の地理データと時系列データを活用。 13
事前研究課題 1. Do language models exhibit cognitive biases, such as confirmation bias or anchoring bias? (言語モデルは、確証バイアスやアンカリングバイアスなどの認知バイアスを示すか?) 2. Are image transformers more or less sensitive to pixel noise than convolutional networks? (画像トランスフォーマーは畳み込みネットワークと比較してピクセルノイズへの感受性が高いのか低いのか?) 3. Do language models improve accuracy on MedQA when asked to perform differential diagnosis? (言語モデルは鑑別診断を行う際にMedQAの精度を向上させるか?) 4. Are language models sensitive to word order in multiple choice benchmarks? (言語モデルは多肢選択式ベンチマークにおいて語順に敏感か?) 5. Does gender role play affect the accuracy on of language models on answering math questions? (LLMに性別を役割として与えたとき, 数学問題解答の精度に影響を与えるか?) 14
7 結果と考察 MLE-Bench評価 (1)MLE-Bench評価 (この評価は, MLE-Benchデータセットの10個の課題に対しての評価) ・mle-solverは, 6個のベンチマークで人間のパフォーマンスの中央値を上回る ・mle-solverは, 以下のメダルを獲得: ・金: 2個, 銀: 1個, 銅: 1個 ・他のソルバー(OpenHands: 2金, AIDE: 1金1銅)を上回る安定した高得点を達成 15
7 結果と考察 (人間による評価) (2-a) 人評価者による成果物評価 モデル別スコア: ・o1-preview: ・o1-mini: ・gpt-4o: ・有用性: 4.4/5(最高スコア) ・実験の質: 3.2/5(最高スコア) ・コスト効率とスピードで優れるが ・明瞭性: 3.4/5(最高スコア) ・総合的な安定性が評価される 品質スコアは他モデルに劣る16
7 結果と考察 (NeurIPSスタイル基準による評価) (2-b) 人間(緑)と自動レビューア(赤)による成果物評価 NeurIPSスタイルの総合評価(10点満点): 人間のスコアは自動レビュアーのスコアより平均-2.3ポイント低い 17
7 結果と考察 (Co-Pilotの評価) (3) Co-Pilotモードの評価の結果 ・Quality Evaluation (品質評価): カスタム課題のほうが事前選択課題 よりも高いスコアを得る傾向 ・Self-Evaluation (自己評価) カスタム課題のほうが事前選択課題 よりも高いスコアを得る傾向 ・External Evaluation(外部評価) カスタム課題は, 自己評価で高スコアを 得た一方, 外部評価では事前選択課題よ り低い評価. 貢献度以外は全て事前選択課題より低い ・Co-Pilotモード vs. 自律モード: Co-Pilotモードのスコアは自律モードより も向上 平均スコアが 3.8/10 → 4.38/10(+0.58) に上昇 18
8 まとめ Agent Laboratory ・文献レビュー, 実験, レポート作成を効率化する研究支援フレームワーク ・論文を自動で生成する自律モードと人間とエージェントが協働して論文を作成するCo-Pilotモードの 2つの操作モードを提供 評価 ・NeurIPSスタイルで生成論文を評価 結果 ・Co-Pilotモードは自律モードよりスコアが向上(3.8/10 → 4.38/10) ・カスタム課題は主観的に高スコア, 事前選択課題は外部評価で高スコア 意義 ・科学的発見の効率化と人間とエージェントの協働を実証 19
感想 Agent Laboratoryは, 研究支援ツールとしての大きな可能性を示していると思いました.特に, 自律 モードとCo-Pilotモードを使い分けることにより,さまざまな研究ニーズに対応できると思います. 今回のAgent Laboratoryの取り組みは, エージェントと人間の協働の第一歩を示しました.私もこの プロジェクトのコードなどを参考に, 自分の研究に応用していきたいと思います. 20