117 Views
August 31, 25
スライド概要
付属資料
定年まで35年間あるIT企業に勤めていました。その後、大学教員を5年。定年になって、非常勤講師を少々と、ある標準化機関の顧問。そこも定年になって数年前にB-frontier研究所を立ち上げました。この名前で、IT関係の英語論文(経営学的視点のもの)をダウンロードし、その紹介と自分で考えた内容を取り交ぜて情報公開しています。幾つかの学会で学会発表なども。昔、ITバブル崩壊の直前、ダイヤモンド社からIT革命本「デジタル融合市場」を出版したこともあります。こんな経験が今に続く情報発信の原点です。
DeepSeek の 登 場 と そ の 後 へ の 影 響 ‐AI エ ー ジ ェ ン ト の 時 代 を 展 望 し て ‐ 高橋 浩 ( B-frontier 研 究 所 ) 1.はじめに 生成 AI の短い歴史はモ デル性能の急進によって 彩られてきた。この傾向 は、DeepSeek 社が最近発 表した一連の製品によっ て再び起きている。但し、 今回は性能向上だけでは ない。2024 年 12 月、同社 は OpenAI の GPT-4o と直 接 競 合 す る DeepSeek-V3 を発表した。このモデルは 2 ヶ月で学習され、学習に 要した費用は約 560 万ドル と発表されて安さが話題 になった[1]。続いて、2025 年 1 月 20 日、推論機能を 強 化 し た 最 新 の Open AI-o1 と 同 等 性 能 を 達 成 し た 図1.DeepSeek R1 のパフォーマンス DeepSeek-R1 を発表した(図 1)[2]。この矢継ぎ早の 力を獲得した。但し、そこで発生した課題解消のために 製品発表は、NVIDIA の大幅株価低下を含め、世界に大 教師あり微調整(SFT)を活用するような工夫も行うこ きなインパクトを与えた。そこで、 本稿は DeepSeek とで、最近、推論機能強化版として発表されたばかりの V3/R1 の理解と AI エージェントを含む各方面への影 OpenAI 社の新製品 OpenAI-o1 と互角の性能を達成し 響について検討する。 た(図 1)。DeepSeek V3, R1 はどちらもオープンソー DeepSeek は、AI を使用した金融取引を手掛けるヘ スとして提供された。 ッジファンド High-Flyer の共同創立者で、1兆円超の 資産運用をしていた梁文鋒氏によって 2023 年 5 月に 設立された。DeepSeek は当初から米国からの AI 規制 2. DeepSeek の影響の枠組み V3 と R1 は、一ケ月間隔でリリースされており、R1 の環境下で ChatGPT 等米国製生成 AI に対抗するため、 は、V3 の後継製品と言うだけでなく、推論機能強化の 目的を持っており、V3 は GPT-4o を上回り、R1 は高度 開発に必要な GPU など各種リソース消費を極力圧縮 する小型化・低廉化を実現しながら高性能製品開発を な推論機能を持つ OpenAI-o1 と互角ということで、開 目指した。そこで、この方針に貢献しうる多様な試み、 発リソース少で小型化、低廉化を実現しつつ高性能も 例えば、古くから知られていたが顕著な成功を見なか 達成という快挙を成し遂げた。これに最も貢献したと った MoE(Mixture-of-Experts)アーキテクチャによる 思われる MoE アーキテクチャは、モデルを幾つかの特 開発と運用など、コスト効率の高さと実用レベルの処 定小規模モデル(数学用、コーディング用など)に分割 理能力を兼備できる各方式実現に果敢に挑戦し し、これによって学習負荷を軽減させるもので、結果的 DeepSeek V3 を実現させた。 に DeepSeek は数学とコーディング分野に特化し、従 続いて DeepSeek-R1 では、DeepSeek V3 をベース に推論機能強化を計るため、これも通常は使用する教 師あり微調整(SFT)を敢えて使用せず、最初から純粋 な強化学習(RL)のみで訓練することで、自然な推論能 来生成 AI が苦手としてきた計算精緻化が必須な分野へ も生成 AI 適応を拡大させた(図 1)。 これまでの成果をまとめると、V3 で達成された小型
スポンスの生成 AI チャットを主体とした小デバイ ス向け機能から、推論機能を活用した AI エージェ ント向け機能、および大規模な推論機能提供環境の 充実などである。AI エージェントの側面を補足すれ ば、従来型エージェントシステムのエンジン(ルー ルベース)を LLM に置き換えるエージェント AI シ ステムを想起すれば、小型化、低廉化、専門化、推 論機能強化にオープンソースの特性は、新たなエー ジェント AI システムの構築に大きく貢献する。こ 図2.DeepSeek 影響の枠組み 化、低廉化、特化(専門化)に加え、推論機能を強化 した R1 も加わり、それらが全てオープンソースとして 提供されている。R1 は推論機能強化を目指して初めか ら強化学習を行い、教師あり微調整を使わなかった結 果、ここでも開発リソースの縮小を達成した。これら全 体の生成 AI 開発の仕組みと、全ての機能をオープンソ ース化した戦略は、「生成 AI の民主化」という新たな 枠組みを提示したと言える(図2)。このことは単に新 たな生成 AI 製品の登場に留まらず、AI エージェント を含む異なる世界を切り拓 く基盤となることを示唆す る。本稿はこのような認識で以降の検討を行う。 「生成 AI の民主化」は何を引き起こすか?まず、小 規模デバイスで生成 AI の動作が可能になる。結果、生 成 AI 機能搭載を前提とした多様なデバイスおよびその コアとなる多様な AI チップが開発される。そうなれば、 実行できる生成 AI 機能は階層化する。例えば、ハイレ れに伴い、エッジデバイスからも、ハイレスポンス 生成 AI が利用可能になると共に、高度な推論が必要な エージェント AI システムまで含めた全体構成が視野に 入って来る。結果、現在とは大きく異なる世界が拓けて くる。しかし、その一方、これらを構成する各要素の担 い手は多様化し、従来とは異なる危険、あるいは負担と なる新たな負の連鎖が拡散するリスクが顕在化する。 このような状況を検討するため、(1) そもそも多様化 し て い る 生 成 AI は ど の よ う な 特 徴 を 持 つ か ? (2) DeepSeek 登場は生成 AI にどのような影響を与える か?(3) 複雑化する規制環境において生成 AI を如何に ガバナンスするか?を考える。 生成 AI は図1に示すような各種ベンチマークだけで は把握できない多様な要因で構成されている。そこで、 代表的生成 AI を多様な比較尺度(表1の左欄)で比較 し、各生成 AI モデルの特徴と限界を示す[3]。そうする と、各モデルは重点の置き方に相違があり、典型的には 専用志向と汎用志向の 2 方向があることが分かる
( DeepSeek は 専 用 志 向 , ChatGPT は汎用志向)。こ れ は専 用 志 向が 効 率 的・ リ ソ ース 小 、 汎用 志 向 が大 計 算能力・リソース大であり、 汎 用志 向 は 用途 が 汎 用で あ る が故 に バ イア ス や 公平 性 対 応、 敵 対 的入 力 に 対す る 堅 牢性 な ど をよ り 強 化し な け れば な ら ない 面 が ある こ とも分かる。従って、比較評 価 尺度 の 網 羅的 カ バ ーの み が 重要 な の では な く 、今 後 は使用分野、ビジネス的狙いに合わせて多様化が急速 に進むと推定される。 図3.専用モデルと汎用モデルの比較 AI(AGI/ASI など)登場によって引き起こされるカタス トロフィー的な大規模事象(決定的リスク)、後者は一 つ一つは小さな事象であっても、それらがボディブロ 3.生成 AI のリスクと民主化の影響 ーのように積み重なって最終的に巨大な事象が発生す このような方向性を突き詰めると、DeepSeek は、汎 るリスク(累積的リスク)である[5]。以後、当面現実的 用モデルと一線を画し、計算効率の高いアーキテクチ な累積的リスクのみを考える。このジャンルに入る小 ャ、数学やコード生成などに特化、純粋な強化学習 さなリスクの例として、操作と欺瞞のリスク、誤情報と (SFT なし)で自律的に推論能力を強化と言うだけで 偽情報のリスク、悪意のある使用のリスク、差別やヘイ なく「(大規模計算リソースなどの)ハードウェア環境 トスピーチのリスク、監視、権利侵害、信頼の低下のリ に依存しない実装をオープンソースで提供」という目 スク、環境リスクと社会経済的リスクなどが考えられ 標を一定程度達成したと評価できる[4]。このことは、 る。生成 AI は基本的にこれらの行為を容易化する。累 これ まで の汎 用利 用 /ク ロー ズド シス テム /大規 模リ ソ 積的リスクは重大性は低いものの、重要な混乱が連続 ース使用を前提としてきた ChatGPT に代表される既 的に発生し、グローバルシステムのリジリエンスを侵 存生成 AI 側も、一貫した目標が異なる DeepSeek の登 食し、重要な社会経済的均衡を破壊する可能性がある 場とその目標のほぼほぼの成功に良い刺激を受け、こ [6]。 れまでの方向の見直し、DeepSeek 的方向性への一部追 DeepSeek 起因の問題は、先行した汎用生成 AI と遜 随あるいは既存路線との共存など、新たな取組みへの 色ない機能を小型化、廉価で実現しているというだけ キッカケになったと推定される。このような視点から でなく、規制や隔離が困難なオープンソース で提供さ 専用モデル、汎用モデルの比較を図3に示す。 れている点も重要になる。即ち、最小限のリソースで誰 但し、 「生成 AI の民主化」の世界は AI 由来の新たな でもアクセスできるオープンソース生成 AI モデルは悪 リスクを増幅させる懸念がある。「生成 AI の民 主化」は担い手の激増、小規模デバイスの登場な どを通じて、よりシステム化された生成 AI 活用 ならびに AI エージェント活用の機会の登場によ り、従来想定していた AGI/ASI 到来を前倒しす る可能性があり得るが、その一方、従来の想定と は異なる多様なリスクの拡散を助長する可能性 がある。 このリスクを 2 つの側面から考える。一つは 従来から喧伝されていた、 人間の能力を超えた AI(AGI/ASI など)の登場に由来するリスク、もう 一つは「生成 AI の民主化」で拡散が懸念される リスクである。前者は人間の知能を超えた高度な 図4.生成 AI の民主化登場に伴うメリットとリスク
意のある行為者による悪用に対して障壁を低くしてし まうのである。 に適応する意思決定能力が足りない。 ・スケーラビリティと制御: 生成 AI は計算コストが高 自動化されたサイバー攻撃から偽情報キャンペーン く、制御が困難なので、特定エージェントアプリに合 による重要インフラの不安定化まで、現在でも既に発 わせて微調整し行動しても、多くの場合予測不可能 生している障害の規模や可能性が拡大し、累積的リス な結果を生じ、信頼性が損なわれるリスクがある。 クを加速させる元凶になる懸念がある。そこで、オープ ・倫理的およびセキュリティ上の懸念 : 生成 AI の確 ンソース生成 AI のもたらす計り知れない恩恵と、その 率的性質は変わらないので 、誤解を招くコンテンツ リスクを軽減するための倫理的、規制的枠組みの構築 や有害なコンテンツ作成などのリスク は残る。一か が喫緊の課題となる。概念図を図4に示す。 八かのシナリオを実行する訳には行かない。 ・証拠の欠如 : 生成 AI がエージェント AI のコンテ 4.AI エージェントが拓く産業の未来 キストで一貫して期待どおりに機能できることを示 以上の検討を踏まえ「AI エージェントが拓く産業の す経験的証拠はない。ケーススタディは逸話的なも 未来」を考える。生成 AI と AI エージェントの違いを のであることが多く長期的な存続には対応できない。 明確に理解することから開始する必要がある。生成 AI 最近、GPT-4o、Claude-3 を用いて公開されている典 は創造性が原動力で、核心は、既存のデータから学習し、 型的エージェント AI システムを 6 個取り上げ、体系的 に分析した例が報告されている[8]。自律的に達成すべ その知識を使用して、人間の創造性を模倣した新しい オリジナルの出力を生成することである。一方、AI エ き目標を達成できたかどうかで失敗・成功を判定して ージェントは自律的な問題解決者で、核心は、意思決定 いるが、失敗率がなんと、最高 87%、最低 41%、と極 を行い、行動を起こし、変化する環境に適応することで めて高い(図 5)。 ある。これだけ特性が明確に違うのに、既存エージェン トシステム(ルールベース)のエンジンを LLM に入れ 替えたエージェント AI システムがこれだけ注目を集め るのには理由がある。 現行の生成 AI は理想(“夢”)を語るのは得意だが、 次のような問題がクローズアップされてきていること が背景にある。例えば、旅行プラン作成を考える。生成 AI は希望に即して理想的プランは直ちに提供してくれ る。しかし、空き室状況を確認したホテル予約、価格と 日程を調整した上でのフライト選択など、手を動かし 意思決定を行う具体的行動が全く出来ない。これらの 作業は全て人間に振られてくる。これでは AI が人間を 作業者として使っているような関係で、AI と人間の関 係の想定と真逆である。 図 5. 典型的なエージェント AI システムの失敗率 このような結果を踏まえ、これら失敗の原因を探求 して、14 個の障害モードを特定している[8]。それら このような生成 AI の限界が明確になり、この課題解 は仕様に関する問題(システム設計関連)、エージェ 決のニーズが先行しているので、創造中心の生成 AI と ント間の不整合に関する問題(エージェント間の調 行動中心のエージェント AI は双方機能の相性が必ずし 整)、タスク検証に関する問題(品質管理)の3カレ も良くないにも関わらず期待が先行している 。あるい ゴリーに分類され、いずれも基本的なものばかりであ は連携不充分なのに期待先行でエージェント AI システ る。これは潜在的に根本的原因の存在を示唆する。 ムへの期待が盛り上がっている。下記のような問題が 改善策としては、そもそもエージェント AI システ ある[7]。 ムにおける長期的に一貫性のある目標追求の取組みが ・真の自律性の欠如: 生成 AI はトレーニングデータに 複雑なプロセスを要求しており、このような高度な目 依存しており、そのデータのバイアスや制限に縛ら 標達成のためのベンチマークには、言語モデルベース れているので、真の意味での理解や自律性はない。 のベンチマーク程度では全く不充分である。現状は堅 ・意思決定の不備: 生成 AI はもっともらしい出力を 牢なエージェント AI システムの構築法も確立してお 作成することには優れているが、堅牢な推論能力 は らず、それとセットの品質確保と検証のためのエージ 不充分なので、長期的な影響を考慮して動的な環境 ェント AI システム検証向けのベンチマークやその標 準化も未設定である。
このような状況で 「新技術が、製造・医 療・交通・金融など多 様な産業において、モ ノづくりやサービスの 在り方、技術と技能の 関係性などについて新 たな価値創出の可能 性」を考察するために 2 つの提案を述べる。 1) 今後の展開のタイ ムスケジュール 2) エージェント AI シ ステムの類型化 第一に、上述の検討を 図6. エージェント AI システムの展開予想 踏まえたタイムスケジュールを図6に示す。現在、市場 であり、今後は個別要件に合わせて多様なエージェン で多数の取組みが行なわれているが、それらは、もし、 ト AI システムが共存し発展することが予想される。 ある企業が特定分野でエージェント AI 活用に成功して これをまとめて表 2 に示す[9]。表の区分は既存エージ 確実に生産性向上を達成してしまったら、同業他社へ ェントシステムも含む暫定的なもので、今後個々の事 の競争優位性が確定されるのではないか?との認識の 例拡大によって詳細化と見直しが行なわれて来る。 影響も想定される。しかし現在は構築期の初期にあた 最後に、DeepSeek は米国からの AI 規制で、開発リ り、本格稼働までには間があると考えられる。従って、 ソースに大きな制約があった際、それを克服するアイ 必ずしもイノベーションフレームワークを確立する環 ディア群に挑戦するうちに、MoE アーキテクチャを本 境は整ってはいない。 格的に実現することで所要の成果を得た事を振り返 第二に、このような状況で個別産業の将来を考える る。エージェント AI システムも期待は大きいもの 場合には、エージェント AI システムの類型化も有効と の、課題は多く本格実用化に向けた課題は多い。生成 考える[9]。エージェント AI システムは既存のルールベ AI の場合はデータから学習するというメインルートが ースのものも含めて、適用分野の要件に合わせて多様 あったので、改善にはハルシネーション緩和に集中す
ることができ、RLHF 法や、Andrew Ng 教授による 「データ中心 AI」の登場などがあった。 Agentic AI”, Forbes, Jan 29, 2025. [8] Mert Cemri et al., “Why Do Multi-Agent LLM エージェント AI システムは、これに比べるとメイ ンルートが定かでなく焦点は絞り切られていない。問 題解決のプロセスはより複雑になりそうである。特 Systems Fail? ”, arXiv preprint arXiv:2503.13657, 2025. [9] Naveen Krishnan, “AI Agents: Evolution, に、エージェント AI システムは自律的に多様な目標 Architecture, and Real-World Applications”, arXiv を達成することが目的なので、目標の高度化により通 preprint arXiv:2503.12687, 2025. 常はマルチエージェント構成に成ることが多い。これ が問題を一層複雑にする。このような問題に立ち向か う一般的方法は、精緻で大規模なソフトウェアシステ ム開発と同様に、個々の構成要素であるエージェント の精度(品質)を極限まで向上させ、またそれらを束ね た集合体が期待どおりに動作しているかどうかを確認 するためのベンチマーク手法の工夫、検証に用いる独 自データの整備が想定される。 これらの準備だけでも課題は重く作業は複雑であ る。一種のすり合わせ的な非常に精緻な議論と作業が 必要になる。また、エージェント AI システムの達成 目標は実用的でなければ意味がない。いくら正しく動 作してもコスト効率が低くては実用にならない[10]。 このような課題への取組みは DeepSeek でも似たよう な側面があった。日本流のすり合わせ技術やメンタリ ティも活躍の場があるのではないかと推測される。 〔参考文献〕 [1] Aixin Liu et al., “DeepSeek-V3 Technical Report”, arXiv preprint arXiv:2412.19437, 2024. [2] Daya Guo et al., “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning”, arXiv preprint arXiv:2501.12948, 2025. [3] Rupesh Phogat et al., “A Comparative Study of Large Language Models: ChatGPT, DeepSeek, Claude and Qwen”, 3rd International Conference on Device Intelligence, Computing and Communication Technologies, Dehradun, India, 2025. [4] Fnu Neha and Deepshikha Bhati, “A Survey of DeepSeek Models”, Authorea Preprints, 2025. [5] Atoosa Kasirzadeh, “Two types of AI existential risk: decisive and accumulative”, Philosophical Studies, 1-29, 2025. [6] Malik Sallam et al., “DeepSeek: Is it the End of Generative AI Monopoly or the Mark of the Impending Doomsday?”, Mesopotamian Journal of Big Data 2025, 26-34, 2025. [7] Gonçalo Ribeiro, “Why 2025 Won't Be The Year Of [10] Sayash Kapoor et al., “AI Agents That Matter”, arXiv preprint arXiv:2407.01502 , 2024.