CyberAgent AI Lab 研修【研究コード公開発展編】ソフトウェア化と成果物の公開

23.6K Views

March 13, 25

#研究コード公開 #ソフトウェア開発 #GitHub #ソフトウェアパッケージング #成果物公開

スライド概要

CyberAgent AI Labのスキルアップ研修にて発表した研究コード公開の作法についてです。
発展編でのこの資料においては研究コードのソフトウェア化と成果物の公開について述べています。

Kazuhiro Ota

@ciela

スライド一覧

CyberAgent AI Lab リサーチエンジニア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

CyberAgent AI Lab 研修【研究コード公開基礎編】GitHubでの実験・分析コード公開

Kazuhiro Ota 43.9K

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 755.4K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 351.6K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 329.9K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 293.5K

ZAZA株式会社_会社紹介

ZAZA株式会社 269K

各ページのテキスト

研究コード公開発展編ソフトウェア化と成果物の公開 CyberAgent AI Lab 研修 20241218 Kazuhiro Ota 1

基礎編再掲論文に加えて研究コードを公開する流れがありますね > Our code, data and trained models are available at this http URL. 研究コードがGitHubで公開されてる！ 2

https://github.com/tech-srl/code2seq

基礎編再掲なぜ研究コードを公開するの？メリットたくさん！プロダクト所属のエンジニアと連携しやすくなり、AI Lab発の技術を事業に繋げやすくなるといったところも研究者流コーディングの極意 from 言語処理学会第19回年次大会 3

https://www.chokkan.org/publication/coding-for-researchers.pdf

基礎編再掲この研修資料で目指す状態 ● ● 研究で書いたコードを外に出しても恥ずかしくない状態でGitHub公開できるようになるコードだけでなくその成果物によって適切な公開手段を選択し、必要であればリサーチエンジニアと連携して公開できるようになる論文同様、コードも他人が利用する・読むものであることを意識して、受け手にとって優しい状態でのコード提供ができるようになりましょう 4

基礎編再掲対象者コード公開について自信がないAI Labリサーチサイエンティスト GitHubでの実験・分析コード公開（基礎編） ● ● ● 研究コード書いたのは良いけど、そのまま公開して良いのかどうか迷っている公開といってもJupyterNotebookの分析コードだけなんですがセキュリティとか大丈夫なんだっけ？ソフトウェア化と成果物の公開（本編） ● ● ● 皆に pip install して使ってもらいたい最近よく聞くHugging Faceって？手軽にモデルを試すことのできるデモアプリも作ったんだけど 5

https://www.docswell.com/s/ciela/KJ4R21-2025-03-13-153239

● 目次実験コードとソフトウェアの違い ○ ○ ● ソフトウェアのパッケージングと公開 ○ ○ ○ ● ソフトウェア化する上で考慮すべきことソフトウェア化の指針 GitHubとパッケージリポジトリパッケージングとは TestPyPIへの公開チュートリアルその他成果物の公開 ○ ○ デモサービス学習済みモデル・データセット 6

実験・分析コードとソフトウェアの違い 7

研究コードはプロダクトで動く？研究で書いてた実験・分析コードはすべてGitHubで公開したし、これで世の中の人々に使ってもらえるなー公開研究者動かなくはなさそうだけど、プロダクトコードから利用しにくそう…自分なりに改修しなきゃダメか… 参照プロダクト開発者 8

実験・分析コードとソフトウェア研究で書いたコードはそのままでは広く利用される状態ではない 🧪実験・分析コード 💻ソフトウェア実装対象解かれていない問題研究終了まで全体像は定まらない要件に基づく機能・仕様目的アイデア検証手法の透明性・再現性の確保汎用性のあるツールの提供技術の社会実装閲覧者利用者共著者など主に研究者非研究者を含む一般ユーザ 9

10.

ソフトウェア化とは各種プログラミング言語から利用されるライブラリや、何らかのユーザインターフェイスを持ったツール・サービスを作成し、利用者に価値を提供することライブラリ特定の機能・処理に焦点を当ててプログラミングを支援 ● ● ● ● ● ● NumPy PyTorch scikit-learn pandas OpenCV etc. ツール・サービス仕事や研究などの作業そのものを支援 ● ● ● ● Jupyter Lab MLﬂow ChilmAI etc. 両方の側面をもつソフトウェアも多いです研究におけるソフトウェア化の作業は、提案手法・モデルを上記のものに昇華すること！ 10

11.

ソフトウェア化を行う前に… そもそも研究内容をソフトウェア化すべきか・できるかを考えましょう下記について自信を持てる状態を目指します ● 競合の存在 ○ ○ ● 研究とは異なる評価軸 ○ ○ ● すでに似たようなソフトウェアが存在する場合、何らかの面で優位性をつくれそうか提案手法に短所がある場合、それをカバーする機能などを実装できそうか提案手法とは異なるところでその良さが伝わらない可能性も使い方が分からない、実装のパフォーマンスが悪い、などドキュメンテーション・メンテナンス ○ ○ ユースケースを想定しつつわかりやすく網羅的なドキュメントをまとめられるかバグ報告やPull Requestを受けた際に応対が可能か 11

12.

ターゲットユーザとユースケースソフトウェアを使用するユーザーのニーズを理解しましょう（技術的なスキルレベルや職種・業務内容など）ユーザーがソフトウェアをどのように使用するか、ユースケースとなる大まかなシナリオを固めます例 MLエンジニアや研究者が Pythonで深層学習モデルを実装・利用することができる自治体職員がマッチングアルゴリズムで保育所の入所選考作業を行える https://chilmai.cyberagent.ai/ 12

https://chilmai.cyberagent.ai/

13.

ソフトウェア名ターゲットとなるユーザや利用シナリオが見えたら、ソフトウェアを命名しましょう目的や主要な機能を反映する名前にすることで、ユーザーがそのソフトウェアの用途を直感的に理解できるようにします ● シンプル ○ ● ユニーク ○ ● 将来ソフトウェア配布ウェブサイトを独自に立ち上げた場合にそのドメインもソフトウェア名に沿っていると見栄えが良い文化的・言語的配慮 ○ ● 他のソフトウェア、企業名、商標と重複しないかドメインが確保可能か ○ ● 短くて覚えやすいか、発音しやすくスペルミスが起こりにくいか日本語以外の言語・文化で不適切な意味を持たないかブランドイメージ ○ CyberAgentのイメージ・AI Labのビジョンについて一貫性があるか 13

14.

実装要件ソフトウェアで提供する機能を定義します機能要件・非機能要件とわけて考えるとエンジニアと連携しやすくなります ● 機能要件 ○ ● ソフトウェアが本質的に提供したい・満たしておくべき要件非機能要件 ○ ○ パフォーマンス、セキュリティ、対応デバイスなどの品質面の要件難しい場合はリサーチエンジニアと連携しましょう例 ● テンソルデータに対する一般的な計算を行える ● MLモデルをPythonのクラスとして表現できる ● GPU上での処理も可能 ● マッチングアルゴリズムで児童データ・保育所データ間の最適マッチングを導出できる ● バリデーション処理で入力データのエラー箇所を明らかにできる ● マッチングはN分以内で完了する 14

15.

入出力の形式入出力形式はソフトウェアの使い勝手に大きく影響します実装要件を踏まえ、なるべく標準的な形式をサポートするようにしましょう競合ソフトウェアや標準ライブラリをチェックして下記について検討しますデータタイプとフォーマット ● ● テーブルデータ、テキスト、画像、音声 CSV、JSON、XML、PNG ユーザーインターフェース ● ● ユーザーが入力を行うためのインターフェースライブラリであれば関数などのAPI、ツールであればコマンドライン（CUI）やGUI バリデーションとエラーハンドリング ● 入力データの検証方法と、無効なデータが入力された場合の処理を決めます 15

16.

実装とリファクタリング研究で書いたコードをより信頼性が高く、メンテナンスしやすいソフトウェアにするために、下記のことに気を配りましょう ● ● ● ● ● 可読性・メンテナンス性モジュール化・再利用性依存関係の管理テストと検証関数・クラスへのドキュメンテーションコメントここで説明するには奥が深すぎるので各種書籍やネット情報を参考にしつつ、リサーチエンジニアに相談してください 16

17.

ライセンス設定ソフトウェアについての著作権および閲覧者・利用者が行えること（再配布・改変等）をライセンスとして明示しましょうノーライセンスはこんな可能性も… 本研修でもライセンスに関する講義がありますので、より詳しくはそちらをご確認ください OSSライセンス入門 by 吉村さんライセンスをつけないとどうなるの？ #GitHub - Qiita 17

18.

ドキュメント整備ユーザー向けドキュメント開発者向けドキュメント ● ソフトウェアのインストール方法、基本的な使い方、設定方法などを記載したユーザードキュメントを用意します ● Sphinxなどのドキュメントビルダーを利用するとdocstringから HTMLを自動で生成してくれますコードの構造やAPIの使い方、Issue/Pull Requestの上げ方、開発環境の構築手順などを記載した開発者向けドキュメントも整備すると世のエンジニアの協力を得やすいでしょう Flask ユーザドキュメント Flask 開発者ドキュメント 18

https://www.sphinx-doc.org/ja/master/

19.

確認最後に共著者や周りのメンバーに協力してもらい、利用確認を行ってもらいましょう READMEやその他ドキュメントに従って想定するユースケースに則った作業が可能か、その使いやすさや有用性について意見をもらい、フィードバックを反映してください 19

20.

ソフトウェアのパッケージングと公開 20

21.

ソフトウェア公開場所ソフトウェアを公開する場所には下記のようなものがあります GitHub：ソースコードを主体とした公開方式 ● ● Gitのリモートリポジトリによってソースコードをホスト Issue/Pull RequestといったSNS機能を有しており、コミュニケーションが取りやすいパッケージリポジトリ：ソフトウェアのパッケージを公開 ● ● ライブラリ・ツールをインストール可能な状態でホストより簡単にソフトウェアを利用してもらえるようになります 21

22.

GitHubでの公開ソフトウェアをソースコードから直接参照・利用してもらう場合にGitHubで公開できます公開方法とそのポリシーは基礎編のGitHubでの実験・分析コード公開と同様ですので、ぜひ一読くださいこの資料では主にパッケージというソフトウェア公開形式について説明していきます 22

https://speakerdeck.com/cielan/githubdenoshi-yan-fen-xi-kodogong-kai-ai-lab-sukiruatupuyan-xiu-yan-jiu-kodonogong-kai-ji-chu-bian

23.

ソフトウェア（ライブラリ）のパッケージ化ソフトウェアをユーザーが簡単にインストール、使用、管理できるようにするためのプロセス各プログラミング言語向けに代表的なパッケージを公開・配布するリポジトリが公式・非公式問わず存在しているほか、OSディストリビューターが公開しているリポジトリもあります代表的なパッケージリポジトリ Python: PyPI Node.js: npm R: CRAN 23

24.

パッケージ化すると何が嬉しいの？主に下記の点について簡略化がなされ、ユーザがソフトウェアをインストール・利用しやすくなります ● 依存関係の解決 ○ ● バージョン指定でのインストール ○ ● ソフトウェアに必要なライブラリを明示的に指定することで、インストール時に自動的に依存関係が解決・追加インストールされ、動作環境がコマンド一発で整いますソフトウェアの特定のバージョンを指定してインストールすることができ、互換性の問題を回避できます便利なスクリプト・バイナリの提供 ○ 自前のプログラムコードからライブラリを呼び出すことなく、特定のタスクをこなすためのコマンドを提供できます 24

25.

PythonとPyPI https://pypi.org/ 公開自体は特に難しいところはないので実際にやってみましょう 25

https://pypi.org/

26.

PyPIでのPythonパッケージ公開 Python のプロジェクトをパッケージングする by PyPA (Python Packaging Authority) 基本的には上記チュートリアル記事を読めばOKなのですが、このチュートリアルを進めるうえでの流れやつまづきやすいポイントを簡単に記しておきます 1. 2. 3. 4. 5. 6. pyproject.tomlファイルの記述・設置ディレクトリ構造パッケージビルドテストインストール TestPyPIアップロード TestPyPIからのインストール 26

https://packaging.python.org/ja/latest/tutorials/packaging-projects/

27.

pyproject.tomlファイルの記述・設置 Pythonパッケージに関する設定ファイルとして pyproject.tomlがありますパッケージに関する下記のような基礎情報および依存関係をこのファイルに記載することでパッケージングプロセスを定義します ● ● ● ● ● ● パッケージ名バージョン作者対象Pythonバージョン依存ライブラリとそのバージョンプロジェクトページURL より詳細な記法とその意味は下記を参照してください Python のプロジェクトをパッケージングする#メタデータを設定する 27

https://packaging.python.org/ja/latest/tutorials/packaging-projects/#configuring-metadata

28.

ディレクトリ構造ファイル配置およびディレクトリ構造は下記のようにしておくのが無難です（srcレイアウトといいます; フラットレイアウトというのもあるのですがここでは割愛）この構造に従う限り、設定をあまり気にかけずパッケージルート内のソースコードを対象としてパッケージングが行われますコードリポジトリルート（パッケージ名とは異なる名前でもOK）ソフトウェアコード pyproject.toml パッケージルートこの中にソフトウェアコードを配置（パッケージ名と名前を合わせる） 28

29.

PyPIパッケージビルドパッケージビルドにはbuildというモジュールをインストールして利用します上記コマンドを実行するとdistディレクトリが作成され、中に2種類のファイルが出力されますこれらがPyPIパッケージの実態です 29

30.

インストール・実行テスト distディレクトリ内に作成されたwheelファイルからインストールを試してみておくとTestPyPIへのアップロード前にインストールして利用できるかを確認できます pyproject.tomlに依存関係として指定していた外部ライブラリが自動でインストールされ、自作した関数・クラスをimportして利用できればOKです NumPyへの依存関係が自動解決されてる！実行をローカルで確認 30

31.

TestPyPIアップロード次はビルドされたパッケージをPyPIにアップロードしていくのですが、PyPIではTest PyPIという試験環境が準備されており、今回のようなお試しでパッケージをアップロードするのに適しています TestPyPIにアカウント作成後、下記記事のとおりにAPIキーを作成・把握しておいてください Python のプロジェクトをパッケージングする#配布物アーカイブをアップロードする 31

32.

TestPyPIアップロード作成したAPIキーはホームディレクトリ直下に.pypircというファイルを作成しその中に記述しておきましょうあとはtwineというモジュールを利用してdist内のパッケージファイルをアップロードします .pypircで設定した名前を指定 32

33.

TestPyPIアップロード出力されたURLにアクセスし、下図のような表示になればOK これでTestPyPIにパッケージが公開されました🎉 33

34.

TestPyPIからのインストールあとはインストールを行うだけですが、その際 --no-deps というオプションを忘れずに（TestPyPIのみ、本家PyPIでは不要です） TestPyPIで表示されたコマンドをそのまま打っても… TestPyPIで依存関係を解決しようとしてエラー依存関係解決を無視して実行 34

35.

PyPIへのリリースおよび宣伝 TestPyPIからのインストールまで問題なく終わったら、本家PyPIでも同様のフローを踏めばOK です（もちろんリポジトリURLやオプションは変えてください）リリースできたらあとはもうより広く使ってもらうために、SNSなどでユースケースの紹介や宣伝を行いましょう（ pip install [ソフトウェア名] という一文は意外と強いです） GitHubで上がってきたバグ報告・Issueへの対応も忘れずに 35

36.

その他成果物の公開 36

37.

研究の成果物研究成果として出来上がるものはソフトウェアパッケージ以外にも下記のようなものがあげられます ● ● ● デモサービスデータセット学習済みモデルこれらの公開方法・公開場所についても軽く見ていきます 37

38.

デモサービス提案手法やモデルを手軽に利用してもらうために、WebフロントエンドライブラリやGUIフレームワークによってインタラクティブなユーザインターフェイスを搭載したものです自作フロントエンド Streamlitでお手軽GUI 38

39.

GCP Cloud Run 公開場所としてはWebサーバになるのですが、GCP Cloud Runを利用することで、下記のような利点を活かしつつサービスを提供できます ● ゼロスケール ○ ● アイドル状態のときには完全にスケールダウンし、リソースを消費しないため、コスト効率が高いです簡単デプロイ ○ Dockerコンテナイメージをデプロイするだけで、アプリケーションを実行できます 39

40.

学習済みモデル・データセットファイルあたり100MBまでであれば、Gitリポジトリに含めてGitHubで公開可能です（が、リポジトリのcloneが重くはなります…）大容量ファイルの場合は、下記のようなオンラインストレージを用いて公開しましょう ● ● ● ● GitHub Release GitHub LFS Hugging Face Hub GCP GCS / AWS S3 40

41.

Hugging Face Hub 特にHugging Face Hubはモデル・データセットのみならず、モデルの簡単なデモアプリもデプロイできます Gradioというツールを使ったアプリケーションをデプロイできるので、モデルの入出力についてデータセットからのデータを参照しつつ直感的な理解を促すのに使えるでしょう 41

42.

まとめ基礎編よりエンジニアと協力しなければならない範囲がぐっと増えたと思います慣れないところもあると思いますが、ソフトウェア化の機運を感じたらお近くのリサーチエンジニアまで！ 42

43.

参考 ● ● ● 研究者流コーディングの極意研究で開発したコードの公開研究のプログラミングにおける悲劇を無くすためのGitとテスト - Kesinの知見置き場 43

CyberAgent AI Lab 研修【研究コード公開 発展編】ソフトウェア化と成果物の公開