6.5K Views
March 04, 24
スライド概要
第4回 LLM Production ( https://llm-in-production.connpass.com/event/311891/ )の登壇資料です。
ACES, Inc. 共同創業者 ← 東大松尾研 ← 鹿児島・鶴丸 / Web&深層学習 / 画像認識・生成 / 大規模モデル・生成AI / blog ( http://tech.acesinc.co.jp ) / Qiita ( http://qiita.com/shizuma )
マルチモーダルなAIの活⽤ 株式会社ACES 久保静真 2024/3/4 0
⾃⼰紹介 久保 静真 (くぼ しずま) Twitter: @seishin55 Qiita: @shizuma 株式会社ACES 執⾏役員/研究開発部統括マネージャー。東京⼤学⼤学院⼯学系研究科技 術経営戦略学専攻 修⼠号を修了。ソフトウェア開発、データ分析、機械学習及び深層学 習の分野での研究、開発、教育に従事の後、2017年にACESを共同創業。独⾃に開発した AIモデルをモジュール化の上で効率的に提供できる仕組みを構築しつつ、AIモデルの開 発・活⽤から⾃社プロダクトの開発まで幅広く管掌。現在は⽣成AI/LLMに関する研究開 発を推進。 Communication コミュニケーションの科学 Human Digital Twin Mobility ⾏動・属性のデジタル再現 ⾞両の内外データの活⽤ 1
資料情報 ACESに興味を持った⽅へ • LLM/RAGやマルチモーダルな取り組みに 興味があるエンジニアの⽅ • ⾳声認識技術に興味があるエンジニアの⽅ • など Twitter (X) • 登壇資料を投稿しています • ID: seishin55 2
1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめ
1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめ
独自開発のAIモジュールを用いて、業務プロセスや事業価値をデザイン し、①DXパートナー②AIソフトウェアの2つの事業を通じて課題解決 事業内容 特定の業界における課題を お客様とプロジェクトを伴⾛して解決 事業① DXパートナー 内 容 ACES独⾃のモジュールを活⽤し、 DX戦略・実装・運⽤まで⼀貫して⽀援 契 約 プロジェクト実⾏契約+AIライセンス契約 独⾃開発の AIモジュール AIデザイン プロジェクトで得た 課題をプロダクト化 プロダクトを活⽤し プロジェクトを推進 事業② AIソフトウェア 業界横断の課題を AI SaaSを提供することで解決 内 容 業界・産業横断の共通課題を解決する AI SaaSの開発・提供 契 約 AIライセンス契約
PRODUCT CONCEPT ACES Meetとは 活⽤が困難だったお客様とのやり取りをデータベース化し、 営業⼒を強化する活動に活⽤できる営業⽀援AIツールです。 お客様とのやり取り お客様とのやり取りをDB化・活⽤する 営業⽀援AIツール 営業⼒の強化 勝ちパターン DB 活⽤ スキルアップ・育成 商談記録・引継ぎ
PRODUCT CONCEPT ACES ChatHubとは ⾃社のデータ×業務に特化したChatGPTなどの⼤規模⾔語モデル/⽣成AIを、 ①チームで②セキュアに利活⽤できるチャットボットAIプラットフォームです。 社内のマニュアル・ コミュニケーション 社内マニュアル・ノウハウと連携した チャットボットAIプラットフォーム コミュニケーションDX ヘルプデスク ⾃動化 ビデオ会議ツール DB 活⽤ カスタマー サービス⾃動化 ドキュメント ノウハウの継承 チャットツール
1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめ
紹介する事例 VLMを活⽤した⾏動認識 • Vision-Language Model (VLM)を活⽤した ⾏動認識技術についての事例のご紹介 • VLMに内在する知識を活⽤し、抽象的に定 対話シーンの検出とLLM応答 • 対話コミュニケーションにおいて⾔語/⾳ 声/映像情報から特定の⾏動の検索を⾏い、 その結果をLLMに活⽤する考え⽅のご紹介 義された⾏動を少数データで検出可能に 9
1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø 【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめと今後
VLMを活⽤した⾏動認識とは? • ルールベースで⼀般に定義が難しい⾏動を少数のデータでの学習で検出可能にする技術 (特許取得済) Youtubeリンク: https://www.youtube.com/watch?v=kfLgjhiCaQw
VLMの活⽤で何ができるようになったのか? VLM/⼤規模モデルが獲得している⾔語と動画の概念的な対応関係を活⽤することで⼀般的な深 層学習モデルで学習する場合よりも① 抽象的な⾏動を② 少数のデータで認識できる。 ①抽象的に定義される⾏動 ②少数の学習データ 従 来 の ⼿ 法 物体検出・姿勢推定の結果から ルールベースで⾏動を定義して ⾏動認識を⾏う 検出したい⾏動のデータを収集し 深層学習技術を⽤いてモデルを作成し ⾏動認識を⾏う 課 題 「物体の上に⼈がいる」などの 定義しやすい⾏動は認識可能だが、 「ふらつく」などの定義が難しい⾏動は ルールベースで汎⽤的に検出することが難しい 認識したい⾏動のデータが⼤量に必要であり、多⼤な 収集コストを要する。 認識したい⾏動を増やす場合はその都度、 その⾏動を再度収集する必要がある 効 果 定義付けの難しい「ふらつき」などの⾏動を VLM (Vision-Language Model)によって、 検出したい⾏動と関連するテキスト(プロンプト)を 与えることで汎⽤的に検出できる VLM (Vision-Language Model)が獲得している ⾔語 - 動画の概念的な対応関係を活⽤することで、 ⼀般的な深層学習モデルで⾏動を認識する場合より も、少数のデータでの学習で⾏動を認識できる
どのようにVLMが使われているのか? 検出したい⾏動に関係のある状態のテキスト(プロンプト)を作成し、VLMにより各フレームに対するそ のテキストの存在確率を出⼒する。その出⼒を活⽤して時系列解析モデルが⾏動を検出。 動画 ヒヤリハットが 存在する可能性の ある動画を分割 … … ① 物体検出・ トラッキング ⼈物を検出し、 トラッキング … … ② クロッピング ⼈物ごとに動画を クロップ … … (⼊⼒) 動画 ③ VLM ④ 時系列解析 (出⼒) 検知結果 VLMで各⾏動の存 在確率を計算 各⾏動の存在確率 からヒヤリハット の有無を判定 通常⾏動 … 通常⾏動 ヒヤリハット 検知 ヒヤリハット 検知 … 通常⾏動
1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø 【事例②】対話シーンの検出とLLM応答 3. まとめ
対話シーンに対してどういうことがしたいか? 対話シーン、例えば、営業の動画 (映像、⾳声、書き起こしテキストのマルチモーダル) から テキストに限定されない情報を活⽤してアドバイスなどの応答を⾏ってほしい。 AI 「そうですね...今後の開発計画につ いては...少々お待ちください...」 「これらは営業が質問されて詰まっ たシーンのリストです。これらは営 業が苦⼿なトピックなので練習をし ていきましょう。」
なぜやりたいか? 対話コミュニケーションにおいてマルチモーダルな情報が⼤事な役割を果たす。営業におい て、トークスクリプトだけでは⼗分な解析することが難しい。 最近はお元気ですか? 導入時期はいつ頃を 予定していますでしょうか? 言語情報: 質問文 音声情報: 語気が強い 画像情報: 姿勢が前のめり 次回はいつ お打ち合わせしますか?
どのように動画データを活⽤するのか? マルチモーダルな情報を推論した結果に対して様々な条件のクエリを活⽤して、意図する動 画の抽出及び解釈を⾏い、LLMが応答する。(特許出願中) 自然言語処理 <質問文検知> <トピック分類> … 音声処理 <会話の間> <抑揚> <スピード> 画像処理 <表情認識> <姿勢推定> … <視線推定> … LLM クエリ検索 (複数のand/or条件や ⼀定閾値以上/以下など) (例) <質問⽂検知> + <会話の間> → 質問されて回答に時間が掛かったシーン 検索結果を受けて応答⽣成
動画データを活⽤するための知⾒蓄積の仕組み 特徴量を組み合わせ検証のインターフェース • マルチモーダルな特徴量の組み合わせを ブロックのつなぎとして直感的に表現し て動画に対するクエリ検索を実⾏。 独⾃の知⾒の蓄積 • 作成したクエリを蓄積して、⼀度作成 したものを再利⽤可能に。
1. 会社紹介 2. マルチモーダルなAIの活⽤事例 Agenda Ø【事例①】VLMを活⽤した⾏動認識 Ø【事例②】対話シーンの検出とLLM応答 3. まとめ
紹介した事例 VLMを活⽤した⾏動認識 • Vision-Language Model (VLM)を活⽤した ⾏動認識技術についての事例のご紹介 • VLMに内在する知識を活⽤し、抽象的に定 対話シーンの検出とLLM応答 • 対話コミュニケーションにおいて⾔語/⾳ 声/映像情報から特定の⾏動の検索を⾏い、 その結果をLLMに活⽤する考え⽅のご紹介 義された⾏動を少数データで検出可能に 20
ACESに興味がある⽅へ ACESに興味を持った⽅へ • LLM/RAGやマルチモーダルな取り組みに 興味があるエンジニアの⽅ • ⾳声認識技術に興味があるエンジニアの⽅ • など Twitter (X) • 登壇資料を投稿しています • seishin55 21