iOSで生成AIを扱う方法のまとめ

7.8K Views

July 23, 24

#ios #coreml #swift #ml #ios18 #llm #iOS #生成AI #LLM #画像生成 #音声認識

スライド概要

Mobile勉強会 Wantedly × チームラボ × Sansan #15 での発表資料です。
https://sansan.connpass.com/event/321922/

Shuichi Tsutsumi

@shu223

スライド一覧

フリーランスiOSエンジニア「エンジニアと人生」コミュニティ主宰

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

「スキルなし・実績なし」 32歳窓際エンジニアがシリコンバレーで働くようになるまで

Shuichi Tsutsumi 68.7K

iOSではじめるフォトグラメトリ #iOSDC

ios coreml iosdc ml photogrammetry

Shuichi Tsutsumi 50.5K

ローカルLLM on iOS の現状まとめ

ios coreml llm llama.cpp

Shuichi Tsutsumi 49.1K

GIS入門 - 地理情報をiOSで活用する

iosdc ios gis mapbox

Shuichi Tsutsumi 41K

ふつうのAI駆動iOS開発

ios swift xcode ai claudecode

Shuichi Tsutsumi 35.8K

Cursor × iOS開発 - 私はこうやってます 2025年5月版

ios swift ml ai cursor

Shuichi Tsutsumi 35.4K

各ページのテキスト

iOSで生成AIを扱う方法のまとめ堤修一（@shu223）

自己紹介 • 堤修一 • @shu223 (GitHub, Zenn, Qiita, note, Docswell, 𝕏, YouTube, Podcast, etc...) • 書籍（商業出版4冊、個人出版多数 @BOOTH）:

本日の発表内容 iOSオンデバイスで動く生成AIモデルを自分のアプリに組み込む実装方法のまとめ • ローカルLLM • 画像生成（Text-to-Image） • 音声認識（Audio-to-Text） • and more!

サンプルコード iOS×生成AIのサンプル集「iOS-GenAI-Sampler」

https://github.com/shu223/iOS-GenAI-Sampler

1. ローカルLLM

ローカルLLM on iOS • LLMがオンデバイスで動かせる • いくら使っても無料 • セキュア／プライバシー保護 • 最近のモデルは軽量でも優秀 • 同じ実装で最新モデルも動かせる

ローカルLLMをiOSアプリに組み込む ggerganov/llama.cpp のSwift Package を利用する • llama.cppとは • LLMが高速に動くランタイム • C/C++製 • Apple Siliconに最適化（Metal利用）

https://github.com/ggerganov/llama.cpp

実装のポイント • llama.cppのSwift PackageはほぼC++のコードしかない • → サンプルのLibLlama.swiftを参考にラッパーを書く 1 • GGUFフォーマットのモデルの取得が必要 2 • DownloadButtonにHugging FaceからのDLロジック 1 2 LlamaContext が実際に llama ライブラリを叩いている部分極小モデルでも1GB以上はあり、アプリバンドルに含めるには大きすぎる。

モバイルデバイス向けおすすめモデル • Gemma 2B • Google製の商用利用可能な軽量LLM、2024年2月リリース • 量子化モデル： Q4 (1.5GB), Q8 (2.67 GB) • Phi-3-mini • Microsoft製LLM、2024年4月リリース、38億パラメータ • 量子化モデル： Q4 (2.2 GB)

10.

more • ローカルLLM on iOS の現状まとめ • 記事（Zenn） • スライド • 動画 • llama.cppの公式Swift Packageの使い方を調べたメモ llama.swiftuiのコードリーディング

11.

2. 画像生成（Text-to-Image）

12.

Core ML Stable Diffusion • オンデバイス画像生成 • 多様なモデル • v2.1モデル（速い） • XLモデル（高解像度） • その他派生モデルも同様の実装で動かせる

13.

Core ML Stable Diffusionをアプリに組み込む apple/ml-stable-diffusion のSwift Packageを利用する import StableDiffusion ... let pipeline = try StableDiffusionPipeline(resourcesAt: url) try pipeline.loadResources() let image = try pipeline.generateImages(prompt: prompt).first

https://github.com/apple/ml-stable-diffusion

14.

詳細 • Stable DiffusionをCore MLモデルに変換する • Core ML Stable Diffusionを自分のiOSアプリに組み込む手順

15.

3. 音声認識（Audio-to-Text）

16.

WhisperKit • オンデバイス音声認識 • Apple Siliconに最適化された whisper.cppのCore ML版よりもさらに2〜3倍速い • 音声・動画ファイルからの書き起こし／マイク入力のリアルタイム認識

17.

標準の音声認識フレームワークSpeechとの比較 • WhisperKit 15分の音声ファイルを51秒で書き起こし • Speech 15分の音声ファイルを6分で書き起こし

18.

WhisperKitをアプリに組み込む argmaxinc/WhisperKit のSwift Packageを利用する let pipe = try? await WhisperKit() let transcription = try? await pipe!.transcribe(audioPath: path)?.text

https://github.com/argmaxinc/WhisperKit

19.

実装のポイント • 公式サンプルが、FatViewControllerならぬ非常にFatな SwiftUIビュー... • 1つのビューの中にHugging Faceからのモデルダウンロードも音声処理ロジックもすべて入っている • GenAI Samplerではリファクタリングして使いまわしやすくする予定

https://github.com/argmaxinc/WhisperKit/blob/main/Examples/WhisperAX/WhisperAX/Views/ContentView.swift

20.

詳細 • iOS/macOSオンデバイスで爆速で動作する音声認識モデル WhisperKit • WhisperKit がだいぶ良いので紹介する • WhisperKitサンプルのソースコードを読む

21.

その他GenAI-Samplerに実装済みのサンプル • iOS 18のTranslationフレームワーク • 標準・無料のオンデバイス翻訳 • GPT-4oを用いたマルチモーダル入力のサンプル • リアルタイム動画理解

22.

Upcoming Features ! • ローカルLLM on iOSの llama.cpp以外の実装手段 • MLX, ML) Exporters (Core • Apple Intelligence (Genmoji, Writing Tools, Image Playground) • Stable Diffusion派生モデル • RAG • Google Gemini (iOS SDK) • OpenAIのEmbeddings • OpenAI APIの音声・動画リアルタイム入出力（サポ • 標準のNatural ート待ち） API利用 Languageフレームワーク利用

23.

⭐ いただけると嬉しいです shu223/iOS-GenAI-Sampler on GitHub

https://github.com/shu223/iOS-GenAI-Sampler

24.

ご清聴ありがとうございました！