Claude Opus 4.8 徹底早わかり

4.5K Views

May 29, 26

#Claude Opus 4.8 #AI進化 #長時間自律 #エフォート制御 #ダイナミックワークフロー

スライド概要

佐藤勝彦

@jrpj2010

スライド一覧

携帯販売業界で、セールス指導の講師として約20年間経験をもつ。既存のEラーニングのみの教育ではアウトプットが完遂できないことを課題し、2014年10月TANREN株式会社で起業。アウトプット教育を軸にしたパフォーマンス評価アプリとして評価を集め、シード期に米国Microsoft社よりベンチャー支援プログラムBizsparkPlus認定を受け、2016年には日本e-Learning大賞で経済産業大臣賞など受賞、営業/販売教育専門のソリューションとしてTANRENの企画・設計・開発を手掛ける。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

20260201_OpenClaw超大全

佐藤勝彦 3.9K

TANREN Ver5.5 ご説明資料_20220419

佐藤勝彦 2K

20240812 Flux.1徹底活用講座

flux.1 marp 生成ai ai

佐藤勝彦 1.6K

Apple Vision Pro の集い

apple vision pro 空間コンピューティング xr vr ar 生成ai

佐藤勝彦 1.1K

5分でわかるTANREN_20250414

佐藤勝彦 594

ドラクエ3は最強のビジネスバイブル

佐藤勝彦 552

各ページのテキスト

Claude Opus 4.8 徹底早わかり 2026.05.28 発表 Claude Opus 4.8

結論から3行で Opus 4.8で起きたこと賢さ・正直さ・長時間自律 — この3つが同時に伸びた 1 もっと賢くベンチ全方位で前世代超え 2 もっと正直に根拠の薄い主張をしなくなった 3 もっと長く自律数時間～数日の仕事を一人で走り切る価格は据え置き

今日リリースされたものモデル＋3つの新機能 Opus 4.8 は「単体のモデル更新」ではない。体験ごと変わる新モデル本体より賢く、より信頼できる知性へダイナミックワークフロー (Claude Code) 状況に応じてタスクを分解・実行・最適化 Claude Opus 4.8 エフォート制御 (claude.ai/Cowork) 目的に合わせて考える量を調整 Messages API強化より柔軟に、よりスケールする開発へ

4.8を貫く3本柱この資料で追いかける軸性能・信頼・スケール — この順で物語が進む 1. 性能賢さ 2. 信頼正直さ 3. スケール長時間×並列この3つが揃って初めて、任せられるAIになる

ベンチマーク早わかり前世代・他社モデルとの比較コーディングから知識労働まで、全方位で前世代を更新 Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro SWE-Bench Pro (エージェントコーディング) 69.2 64.3 58.6 54.2 Terminal-Bench 2.1 74.6 66.1 78.2 70.3 Humanity's Last Exam (推論) 57.9 54.7 52.2 51.4 (with tools) OSWorld-Verified (PC操作) 83.4 82.8 78.7 76.2 GDPval-AA (知識労働) 1890 1753 1769 1314 Finance Agent v2 53.9 51.5 51.8 43.0

SWE-Bench Pro 69.2% 実務レベルの課題で、前世代を約5ポイント更新

AIが自分でPCを操作する OSWorld-Verified 83.4% 画面を見て、考えて、操作する — エージェント性能も最高水準 PC操作も自律 83.4% OSWorld-Verified 複数ツールを横断して、長い作業を最後までやり切る画面思考クリック検証

知識労働で頭ひとつ抜けた GDPval-AA 1890 スプレッドシート・スライド・ドキュメントなど実務知識労働の総合スコア Opus 4.8 1890 GPT-5.5 1769 Opus 4.7 1753 Gemini 3.1 Pro 1314 0 500 1000 1500 2000 GDPval-AA スコア文書作成表計算スライド資料

2本目の柱 — 正直さ最も際立った進化コードの欠陥を見逃す確率旧モデル Opus 4.8 1/4 前世代の約4分の1 4倍見逃しにくい

10.

誤った振る舞いも大幅減アラインメント評価スコア (1-10) 低いほど良い誤整合な行動は Opus 4.7より大幅低下、最良モデル並みに前世代より大幅に低い = より誠実 Misaligned behavior 10 8 6 4 4.8 2 3.0 2.6 2.1 0 Sonnet 4.6 Mythos Preview Opus 4.7 Opus 4.8

11.

なぜ「正直さ」が効くのか経営者目線の価値嘘をつかないAIは、検証コストを劇的に下げるこれまで AIの成果物を人が逐一検証時間とコスト増これから不確実な点は AI自ら申告この部分は不確実です要所だけ確認でOK 信頼できるAIほど、人の時間を返してくれる

12.

新機能① エフォート制御 claude.ai / Cowork AIにどれだけ頑張らせるか、自分で選べるようになった努力量スライダー速く・軽く深く・じっくりモデルを選択 Claude Opus 4.8 エフォート (努力量) 速く・軽く深く・じっくりその他の設定ウェブ検索を行うアーティファクトを作成全プランで利用可能

13.

high / extra / max 3段階の使い分け high (デフォルト) 品質と体験の最良バランス extra (xhigh) 難しい課題・長時間の非同期作業に推奨 max 最大限トークンを使い最高の結果高エフォート向けにレート上限も引き上げ済み

14.

標準は「high」、でも賢いトークン効率の妙 Opus 4.7 標準トークン使用量ほぼ同量性能 Opus 4.8 標準 (high) トークン使用量ほぼ同量性能コーディングでは4.7の標準と同程度のトークンで、より高性能同じ燃費で、より速く遠くへ

15.

四半期の仕事を、数日でダイナミックワークフロー

16.

どう動くのか計画 → 並列実行 → 検証独立した視点で攻め、別のAIが反証し、答えが収束するまで回す 1 計画を分解 2 数百のサブエージェントが並列実行 O→O→O→O→ O→O→O→O→… O→O→O→O→ O→O→O→O→ 3 別のエージェントが反証・検証 4 収束した一つの答えを返す途中で中断しても、進捗を保存して再開できる

17.

何に効くのか 3つの代表ユースケースコードベース全体のバグ狩り・大規模移行・二重チェック全体バグ狩り / 監査サービス横断で並列探索発見ごとに独立検証大規模移行刷新・廃止対応・移植数千ファイル規模で実行二重チェック独立した複数回答敵対的検証で精度向上

18.

75万行を、11日で 11日 ZigからRustへ。初コミットからマージまで11日 75万行 Zig → Rust 99.8%通過

19.

始め方は2通りダイナミックワークフロー「ワークフローを作って」と頼むか、ultracodeをオンにするか 1 直接お願い Claude Codeで「ワークフローを作って」と頼むだけ。 2 ultracode設定エフォートメニューからオン → xhighになり、 Claudeが自動で判断。 ultracode エフォート xhigh Max/Team/Enterpriseで利用可。通常より多くのトークンを消費するので、まず小さなタスクで試すのがおすすめ

20.

新機能③ fastモード 2.5倍速、しかも安く 2.5x 従来比3倍安く使える fast: $10 / $50 per Mtok 通常: $5 / $25 速度2.5倍、価格は旧モデル比で 3分の1に

21.

開発者向け — Messages API強化 messages配列内に systemを差し込めるように権限・トークン予算・環境情報をリアルタイム更新キャッシュ維持で中断なし =AIに、作業しながら追加指示が出せる走るエージェント新しい指示 ☑ 権限の変更 ☑ トークン予算の調整 ☑ 環境情報の追加

22.

気になるお値段据え置き通常 $5 / $25、fast $10 / $50。性能だけ上がって価格は同じ Opus 4.7から価格据え置き通常 Standard 入力 $5 出力 $25 per Mtok 高速 Fast 入力 $10 出力 $50 per Mtok 1M input tokens / 1M output tokens あたり

23.

どこで使えるのかほぼ、あらゆる場所で 1M context window claude.ai Pro / Max Team / Enterprise Claude API Amazon Web Services Google Cloud Microsoft Foundry </> モデル ID | claude-opus-4-8

24.

もっと安く使う2つの技コスト最適化 -90% プロンプトキャッシュ -50% バッチ処理使い方を工夫すれば、コストはさらに下がる

25.

誰の、どんな仕事に効くか向いている使いどころ上級エンジニアの最難関・複雑エージェント・企業の長期プロジェクト 1 高度なコーディング本番投入レベルのコードを最小限の監督で。シニアが最難関を任せられる。 2 AIエージェント複数ツールを束ねる本番ワークフロー。記憶でセッションを越えて学習。 3 企業ワークフロー数日がかりの複雑案件を端から端まで。表・スライド・文書に強い。

26.

日本企業へのインパクト TANREN CEO 佐藤勝彦の視点正直さと長時間の自律。この2つが揃った今、AIは『使う道具』から『任せる同僚』へ変わりました。日本企業の人手不足を埋める最大の一手になります佐藤勝彦 / TANREN株式会社 CEO 「任せるAI」は、現場の検証コストを溶かし、人を本質業務へ戻す

27.

今日から始める3ステップ迷ったらここから 1 まず触る claude.aiでOpus 4.8を選ぶ 2 力加減を覚える標準はhigh、難所だけextra/max 3 任せてみる小さな定型業務を丸ごと一つ最初の一歩は、今日の30分で十分

28.

これは、通過点そして、次に来るもの Project Glasswing / Mythos Opusを超える知能の新クラス。安全装置の整備を経て、数週間以内に一般提供予定

29.

3本柱、ここに回収 Opus 4.8 早わかりまとめ賢さ×正直さ×スケール = 安心して任せられるAI = 任せられるAI 賢さ 69.2% 正直さ見逃し1/4 スケール数百並列

30.

さあ、任せてみませんかまず触る・シェアする・相談する役に立ったら、ぜひシェア&ブックマークを Claude