仮想メモリアロケータ導入への道のり

31.1K Views

November 27, 23

#capcom #r&d #カプコン #カプコン技研 #re engine #re:2023 #capcom open conference professional #カプコンオープンカンファレンスプロフェッショナル #re2023capcom #ゲーム開発 #メモリ管理 #RE ENGINE #メモリアロケータ #仮想メモリ

スライド概要

■概要
RE ENGINEではメモリアロケーターを内製しています。
それぞれの時代に合わせて進化を遂げてきたメモリアロケーターの歴史と、最新タイトルで採用されている仮想メモリアロケーターについてご説明します。

※CAPCOM Open Conference Professional RE:2023 で公開された動画を一部改変してスライド化しております。

■想定スキル
malloc, freeといった基本的なメモリ確保・解放の知識

詳細は下記公式サイトをご確認ください。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
CAPCOM Open Conference Professional RE:2023
https://www.capcom-games.com/coc/2023/

カプコンR&Dの最新情報は公式Twitterをチェック！
https://twitter.com/capcom_randd
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Copyright (c) 2018-2021 Microsoft Corporation, Daan Leijen
Released under the MIT License: https://opensource.org/license/mit/

Microsoft, Windows, and Microsoft Teams are trademarks or registered trademarks of Microsoft Corporation in the United States and other countries.
Screenshots of Microsoft products are used with permission from Microsoft.

カプコン技研

@CAPCOM_RandD

スライド一覧

株式会社カプコンが誇るゲームエンジン「RE ENGINE」を開発している技術研究統括によるカプコン公式アカウントです。これまでの技術カンファレンスなどで行った講演資料を公開しています。【CAPCOM オープンカンファレンスプロフェッショナル RE:2023】　https://www.capcom-games.com/coc/2023/ 【CAPCOM オープンカンファレンス RE:2022】　https://www.capcom.co.jp/RE2022/ 【CAPCOM オープンカンファレンス RE:2019】　http://www.capcom.co.jp/RE2019/

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

MH:W | GPU Particle - モンスターハンター:ワールドにおけるGPU Particleの実装

gcc2018 capcom r&d カプコンカプコン技研

カプコン技研 157.1K

ラピッドイテレーションを実現するRE ENGINEの設計

gcc2017 capcom re engine r&d カプコンカプコン技研

カプコン技研 120.9K

GPU駆動レンダリングへの取り組み

gcc2016 capcom re engine r&d カプコンカプコン技研

カプコン技研 77.4K

【CEDEC2018】最新タイトルのグラフィックス最適化事例

capcom r&d カプコンカプコン技研 cedec ゲーム開発 cedec2018 re engine

カプコン技研 54.8K

シェーダートランスレータの実装と運用

capcom r&d カプコンカプコン技研 re engine re:2023 capcom open conference professional カプコンオープンカンファレンスプロフェッショナル re2023capcom

カプコン技研 54.2K

ゲームエンジン開発を支える技術

gcc2016 capcom re engine r&d カプコンカプコン技研

カプコン技研 44.6K

各ページのテキスト

仮想メモリアロケータ導入への道のり仮想メモリアロケータ導入への道のりと題して、 RE ENGINEのゲームラインタイムのメモリアロケータを仮想メモリ管理にした点をお話します。 -------- mimalloc Copyright (c) 2018-2021 Microsoft Corporation, Daan Leijen Released under the MIT License: https://opensource.org/license/mit/ Microsoft, Windows, and Microsoft Teams are trademarks or registered trademarks of Microsoft Corporation in the United States and other countries. Screenshots of Microsoft products are used with permission from Microsoft. ©CAPCOM 1

はじめに Street Fighter 6やEXOPRIMALでは仮想メモリアロケータを採用他のタイトルでは別のメモリアロケータを利用（後述） RE ENGINEにおけるメモリ管理方法をご紹介しつつ、多様なゲームジャンルを支えるメモリアロケータについて解説このセッションではメモリアロケータの話題を取り扱います。 2023年に入ってから発売されたStreet Fighter 6やEXOPRIMALでは、仮想メモリアロケータが採用されています。 2 これら以外の既発売タイトルでは、別のメモリアロケータが使われています。こんにちのRE ENGINEには複数のメモリアロケータが存在し、最も若い実装が仮想メモリアロケータです。多様なゲームジャンルを支えるメモリアロケータの戦略についてお話します。 ©CAPCOM 2

アジェンダ • メモリアロケータ概要 • メモリ管理の方式 • ヒープアロケータ概要 • 仮想メモリアロケータ • まとめ・将来への展望アジェンダです。メモリアロケータの概要やメモリ管理方式などをお話したうえで、カプコンで運用されているアロケータ本体について話を移していきます。 ©CAPCOM 3 3

メモリアロケータ概要まずは、メモリアロケータ概要です。 4 ©CAPCOM 4

メモリアロケータとは確保、解放されるメモリ領域を切り出すプログラム C++でnew, deleteすると呼び出されるゲーム内では様々な要素がメモリを要求する mMesh = new Mesh(); mDrawPoints = new vec3[1024]; mBufferPtr = std::make_unique<u8[]>(1024); メモリ領域メモリアロケータとは、確保・解放されるメモリ領域を切り出すプログラムのことです。 C++で言うと、たとえばnew, deleteをしたときに呼び出されます。 5 ゲーム内では、画面上に映っている見えるオブジェクトに限らず、ゲームの状態管理をしているプログラムやエンジン内の処理など、様々な要素が常時メモリを要求してきます。 ©CAPCOM 5

メモリアロケータに求められる水準ゲーム実行中は多数のメモリ確保・解放が走る実行速度へのシビアな要求限りあるメモリ空間を有効に使うことも求められる使わない使わないメモリ領域使わないメモリ領域ゲーム中は、多数のメモリ確保・解放が常に行われています。つまり、メモリアロケータが遅いとゲーム全体の実行速度が低下することを意味し、軽量であることが求められます。 6 かといって、雑な処理でよいわけではありません。このように固定サイズで割り当てればカウンタを進めればよいので高速ですが必要なサイズが割り当てサイズに満たない場合、領域を無駄にします。現代のゲーム専用機はページスワッピングがサポートされていないことが多く、 PCと比較すると扱うことのできるメモリ領域に厳しい制約があります。無駄な領域をゼロにすることは難しいですが、軽量であるだけでなく、限りあるメモリ空間を余すところなく使うことも求められます。 ©CAPCOM 6

RE ENGINEでの取り組み RE ENGINEではメモリアロケータを内製パフォーマンスが予見できるうえ、使い方に合わせた最適化が可能リーク検出やプロファイリングの処理を導入しやすいこのような厳しい要求を満たすため、RE ENGINEではメモリアロケータを内製しています。内製することでパフォーマンスが予見でき、最適化の余地が生まれます。 7 また、リーク検出やパフォーマンスプロファイリングなどの開発効率化に繋がる処理も導入しやすいといったメリットもあります。 ©CAPCOM 7

断片化とゲームによるメモリ確保の傾向さて、ここからの話題で触れる用語の認識を揃えるために、断片化そしてゲームによるメモリ確保の傾向をみていきます。 8 ©CAPCOM 8

メモリの断片化とはメモリ全体に空き領域と使用中の領域が点在している状態見かけ上の空き容量すべてを確保できない断片化が進行するとプログラムは続行不能に陥る本講演では、メモリの断片化、あるいは単純に断片化という語句は、メモリ領域の中に空き領域と使用中の領域がバラバラに存在している状態を指します。このようにメモリ領域があり、青色のメモリ領域が使われているとします。 9 この場合、空き領域がとびとびになっており、見かけ上の容量よりも少ないメモリしか確保できません。たとえば、メモリブロック３つぶんの領域を確保したくても、連続している空き領域が足りません。断片化が徐々に進行すると、メモリ確保に失敗してプログラムは続行不能に陥ります。ゲームごとの特性についても見ていきましょう。 ©CAPCOM 9

10.

断片化が起こりづらいゲーム対戦格闘・ステージ攻略型のゲーム読み込むものと流れが決まっていることが多い ※同じゲームでもステージやキャラクターによってメモリ確保の傾向にばらつきがあるメモリはきれいな状態が維持されやすい対戦格闘やステージ攻略型のゲームでは、読み込むものやステージ内の導線がある程度決まっていることが多く、メモリはステージの出入りに合わせてきれいな状態が維持されやすいです。 10 ©CAPCOM 10

11.

断片化が誘発されやすいゲームユーザーの動きをコントロールできないオープンフィールド型のゲームランダム性に富んだオンライン要素を持つゲームメモリは事前に決定できない確保・解放が頻発し、寿命の制御も難しい他方、オープンフィールド型のゲームであったり、オンライン要素のあるゲームではユーザーの動きをあまり縛ることができず、メモリブロックの寿命を事前に決められる範囲が限られており、ある場所で確保したメモリがずっと保持され続けるなど、ややランダム性の強いものとなります。 11 ©CAPCOM 11

12.

RE ENGINEでのメモリ管理方式認識が揃ったところで、RE ENGINEの内部の話に入っていきます。メモリをどのようにプログラム中で管理しているかという点からお話します。 12 ©CAPCOM 12

13.

メモリ管理方式メモリ予算分の領域を”セグメント”に分割メモリアロケータはセグメントごとに存在メモリの全体的な使用状況を俯瞰できる断片化はある程度コントロールされる Default Permanent メモリ領域 Resource Develop Temp ScopedMemorySegment segment(Temp); // このメモリはTempセグメントから取得 auto scratchPtr = new u8[1024]; RE ENGINEではメモリ予算分全体の領域を、セグメントと呼ばれる単位に分割します。それぞれのセグメントのサイズはタイトル制作者が決定します。セグメントの例としては、一般的なメモリを格納するDefault、シングルトンやマネージャーといった永続的なメモリブロックが入るPermanent、一時的に使うメモリのためのTemp、シーンデータやモーションなどのゲーム内リソースを配置するResource、といった形です。セグメントごとにメモリアロケータのインスタンスが存在します。コード上では、右下のように動的にセグメントを切り替えて確保します。 13 この割り当て方式には、どういった用途のメモリが多く使われているか一目でわかりやすい利点があります。また、用途ごとにメモリ領域が分離しているため、断片化はある程度自然にコントロールされます。 ©CAPCOM 13

14.

ヒープアロケータ続いて、メモリを実際に切り出すアロケータの一種であるヒープアロケータの説明に入ります。このヒープアロケータは、仮想メモリアロケータが登場する前のすべてのRE ENGINEタイトルで採用されていたものです。 14 ©CAPCOM 14

15.

ヒープアロケータの初期化から終了まで起動時に予算分のメモリをすべてOSから確保プロセス終了まで返却しない OSから全容量の領域を確保プロセス起動ゲーム実行中プロセス終了 Default Permanent Resource Develop Temp OSに返却 RE ENGINEのヒープアロケータは、プロセス起動時に予算分のメモリをすべてOSから確保します。セグメントごとのアロケータが連続したメモリアドレスを予算ぶんだけOSから取得しますので、この図で言うとOSへのメモリ確保要求は5回のみ走ります。 15 そして、ゲーム実行中はプログラム内のメモリ割り当て要求に応じてメモリブロックを切り出していきます。プロセスが終了すると、各セグメントのアロケータはOSへメモリを返却します。 ©CAPCOM 15

16.

ヒープアロケータの利点速度面で有利システムコールが発生しない最大限のページアライメントに配置デバッグのヒントを得られるクラッシュ時のレジスタから関連領域の推測ができる隣接するメモリからヘッダ情報を探しやすい Permanent Header Header Overrun! Linear address 実行時間の予測が難しいシステムコールをゲーム実行中に一切行わない点は、速度上のアドバンテージです。また、最大限の適切なページアライメントが適用できることでTLBミスが最小化される点も実行速度に寄与します。16 さらに、ヒープアロケータが管理するメモリ領域は起動時に確定し、ゲーム実行中には変動しないという特徴はデバッグにも役立ちます。クラッシュした際のレジスタ情報から、関連するセグメントを割り出すことができます。 ©CAPCOM 16

17.

ヒープアロケータの利点速度面で有利システムコールが発生しない最大限のページアライメントに配置デバッグのヒントを得られるクラッシュ時のレジスタから関連領域の推測ができる隣接するメモリからヘッダ情報を探しやすい Permanent Header Header Overrun! Linear address レジスタに入っているアドレスがこの赤いメモリブロックを指していれば、アドレス範囲からPermanentセグメントを参照していることがわかります。セグメントから割り当てられたすべてのメモリブロックにはヘッダ情報が付いており、確保元を辿るための情報も埋め込まれています。 17 そのため、オーバーランで破壊された領域に隣接するメモリブロックからヘッダ情報を探すことで、こういった厄介なバグも早期に原因特定を行うことが可能です。 ©CAPCOM 17

18.

ヒープアロケータの課題用途ごとに容量が固定されているオープンワールドのようなゲーム作りでは不利に働きやすいゲーム全編を通して範囲内に収まるように調整このように利点が多くあるヒープアロケータにも、開発規模の拡大に伴って課題が出てきました。大きく分けて2つあります。ひとつは、用途ごとに容量が固定されていることです。特にオープンワールドであったり、一つのゲーム内に複数のゲームモードがある場合には 18 このように、全く異なるメモリ消費状況となるケースも珍しくありません。しかし、容量は用途ごとに固定されているため、ゲーム全編を通して範囲内に収まるように調整する必要があります。 ©CAPCOM 18

19.

ヒープアロケータの課題断片化に弱い Used : 24MB 60MB Free : 40MB 4MB Max.Avail: 16MB 4MB もう一つの課題は、断片化に弱いことです。セグメントという概念によって用途ごとに分離されていることである程度の断片化は自然と抑えられていますが、 19 メモリブロックが残置されてしまう状況になると、アロケータ内の数値としては空き領域が40MBあるのに連続領域としてはもっと少ないメモリしか確保できなくなります。こうならないようにゲーム制作のメモリ確保と解放は徹底する必要があるものの、オープンワールドの要素があるゲームなど、状況によっては避けられないケースもあります。 ©CAPCOM 19

20.

仮想メモリアロケータそこに、仮想メモリアロケータがやってきます 20 ©CAPCOM 20

21.

仮想アドレスと物理アドレスプログラム上で普段触れているメモリアドレス＝仮想アドレス仮想アドレスに物理アドレスがマップされている仮想アドレス物理アドレス memset(bufferPtr, 0xff, size); 0x1fbcc000 ~ 0x1fbcd000 0x1000 ~ 0x2000 position->x += 1.0f; 0x20001000 ~ 0x20002000 0x2000 ~ 0x3000 0x70004000 – 0x70005000 0x3000 ~ 0x4000 int v = *srcPtr; 仮想メモリアロケータの話題に入る前に、仮想アドレスと物理アドレスについて触れておきます。普段、プログラムから直接扱っているのは仮想アドレスです。この仮想アドレスに物理アドレスがマップされることで、実際のメインメモリにアクセスできます。 21 たとえば、このようにバッファに0xffを書き込むプログラムが走るとき、bufferPtr変数に入っているアドレスは仮想アドレスです。この仮想アドレスは、メインメモリ上の物理アドレスに紐づけられています。実際の0xffの値は、仮想アドレスを経由して物理アドレスに書き込まれます。他にも、構造体やクラスのメンバに値を加算するときの読み書きをしたり、ポインタ変数経由でデータを読み取るときも同様です。 ©CAPCOM 21

22.

断片化との関係ヒープアロケータのマッピング振り返り仮想アドレスと物理アドレスのマッピングを起動時に行う仮想アドレス空間内の断片化がメモリ領域の断片化に直結 Linear address Used : 24MB Free : 40MB Max.Avail: 20MB ヒープアロケータは仮想アドレスと物理アドレスのマッピングを起動時に行います。そのため、仮想アドレス空間内の断片化が利用可能なメモリ領域の断片化に直結していました。 22 仮想アドレスと物理アドレスのマップ操作を細かく行うことで、この断片化はある程度解消することが可能になります。 ©CAPCOM 22

23.

断片化の解消方法仮想アドレスと物理アドレスのマップ操作はページ単位で行うことが可能物理アドレスは離れた場所からかき集めることができる物理アドレス仮想アドレス u8 delete[] p = new p; u8[8192]; 0x10000000 ~ 0x10001000 0x10001000 ~ 0x10002000 0x01000 ~ 0x02000 0x02000 ~ 0x03000 0x03000 ~ 0x04000 仮想アドレス空間は広大なため断片化は無視できる物理メモリ領域とは比較にならない広大な仮想アドレス空間が利用可能仮想アドレスと物理アドレスのマップ操作はページと呼ばれるサイズの単位で行うことができます。ページの大きさは4KiB,16KiB,64KiBなどで、プラットフォームによって異なります。ページが4KiBの環境で8KiBのメモリを確保する場面を考えます。仮想アドレスは連続しています。 23 一方の物理アドレスは他の場所から参照されている領域があり、断片化しています。それでも、ページ単位でマップすることができるため、問題ありません。 ©CAPCOM 23

24.

断片化の解消方法仮想アドレスと物理アドレスのマップ操作はページ単位で行うことが可能物理アドレスは離れた場所からかき集めることができる物理アドレス仮想アドレス u8 delete[] p = new p; u8[8192]; 0x10000000 ~ 0x10001000 0x10001000 ~ 0x10002000 0x01000 ~ 0x02000 0x02000 ~ 0x03000 0x03000 ~ 0x04000 仮想アドレス空間は広大なため断片化は無視できる物理メモリ領域とは比較にならない広大な仮想アドレス空間が利用可能このように、物理アドレスはメモリじゅうから空いているページをかき集めて使うことができます。メモリ解放時に物理アドレスとのマップを解除しておけば、別の用途で再利用されます。 24 なお、プロセスが扱う物理アドレス空間がGBのオーダーに対して、 64bitプロセスであれば仮想アドレス空間はTBオーダーで存在します。そのため、仮想アドレス空間の断片化はあまり深く考える必要はありません。 ©CAPCOM 24

25.

セグメントは管理上の概念へサイズ割り当てはメモリ領域の分離を意味しない実際には空いている物理メモリを有効活用メモリ領域割当サイズ（標準予算）あるシーン別のシーン Default Default Permanent Permanent Default Resource Resource Perma nent Resource Develop Develop Develop Temp Temp Temp また、これによって解決されるのは断片化だけではありません。仮想アドレスと物理アドレスが分離したことで、セグメントごとのサイズ割り当てはメモリ領域の分離を意味しなくなります。 25 数値の上では区分けされていても、空いている物理メモリを拾ってくればメモリ割り当てには成功しますので、実質的にセグメントのサイズは可変になります。セグメントは、何がどれだけメモリを使えるのかという予算を示す管理上の目安となります。 ©CAPCOM 25

26.

仮想メモリアロケータの需要の高まり開発が大規模化・多様化していく中で、先に説明した仮想メモリアロケータを求める声は多くみられるようになってきました。 26 ©CAPCOM 26

27.

仮想メモリアロケータヒープアロケータに仮想アドレスと物理アドレスのマッピングを追加不要になった領域はOSへ返す物理アドレスが断片化していても、合計領域が足りれば確保に成功懸念 TLBキャッシュミスのパフォーマンスへの影響システムコールのオーバーヘッドどの程度の粒度でOSに返すべきか仮想メモリアロケータに関するノウハウが皆無 VRAMアロケータの知見はそのまま転用できないでは、仮想メモリアロケータの導入について考えていきます。原理を考えれば、ヒープアロケータに仮想アドレスと物理アドレスの動的なマッピング機能を追加すれば良さそうです。 27 不要になったメモリをOSに返しておけば、物理アドレスが断片化していても合計領域が足りれば確保に成功します。しかし、懸念も存在します。たとえば、TLBキャッシュミスのパフォーマンスへの影響や仮想アドレスと物理アドレスのマッピング状態を操作するシステムコールのオーバーヘッドに関する知見がほとんどない状態からのスタートでした。 VRAMは早々に仮想アドレスと物理アドレスを分離した操作に移行していましたが、CPUよりも扱う粒度が大きいため、そのまま素直に参考にすることはできませんでした ©CAPCOM 27

28.

仮想メモリアロケータ導入のネック知見が乏しい中でヒープアロケータを拡張するのはリスクを伴う既発売タイトルを用いた検証だけでは不安は払拭できない後年に発売されるタイトルほどハードウェアを使い切る物量既存のライブラリを組み込む方針ライセンスが明確でありクローズドソースの開発に適していることパフォーマンスがヒープアロケータから乖離しないこと移植性に優れていること実績があることこのような状況下で、ヒープアロケータを拡張して仮想メモリアロケータを実装することには大きなリスクが伴います。 RE ENGINEを採用したタイトル数は10を超え、タイトル開発チームはハードウェアの性能を引き出すつくりをするようになってき 28 ました。そのため、既発売タイトルを用いた検証だけでは不安を払しょくできません。かといって、悠長に構えていると時間だけが過ぎ去っていきます。そこで、既存のライブラリを組み込む方針を選択しました。ライブラリに求めた要件は次のとおりです。ライセンスが明確であり、クローズドソースのRE ENGINEに組み込みやすいことパフォーマンスがヒープアロケータから乖離しないこと移植性に優れていることすでに何らかの実績を持っていること ©CAPCOM 28

29.

仮想メモリアロケータの実装選定いくつかの候補から、最も有力そうなものを組み込んで検証 mimalloc 2.0.3を採用 1.x系列よりも少ないメモリオーバーヘッド MITライセンスマルチコアにスケールするロックレスなメモリ管理戦略移植性を考慮した設計検証の結果、条件に合うメモリアロケータとしてmimallocの採用に至りました。正確なバージョンとしては 2.0.3 としています。安定版とされているバージョン１系列よりもメモリ空間のオーバーヘッドが小さいことが理由です。 29 ライセンスはMITライセンスです。 RE ENGINE採用タイトルではWebマニュアルまたはゲーム内で権利表記されています。 mimallocはマルチコアにスケールするロックレスな戦略をとる設計です。マイクロベンチマークを用いたパフォーマンス調査においてヒープアロケータに肉薄したことも重要なポイントでした。具体的なパフォーマンスは最後にご紹介します。 ©CAPCOM 29

30.

ゲームプラットフォームへの移植性 Windows, macOS, POSIX, wasmの実装は標準で存在移植性が考慮されている証 VirtualAlloc /VirtualFreeに相当する関数を実装すれば動作仮想アドレスの確保・解放物理アドレスのマップ・アンマップ現代のOSではほとんどの場合、相当するAPIが提供されている移植性については、Windows, macOS, POSIX, wasmの実装が存在しており、十分に移植性が高いコードベースです。細かいことを除けば、Windows APIであるVirtualAlloc /VirtualFreeに相当する関数を実装すれば動作します。 30 これらのAPIは、仮想アドレスの確保・解放、物理アドレスのマップ・アンマップを司るものです。現代のOSではほとんどの場合、相当するAPIが提供されています。 ©CAPCOM 30

31.

遭遇した課題と解決方法ここからは、mimallocを導入するにあたって遭遇した課題と解決方法をご紹介します。あくまでRE ENGINEにmimallocを導入したときの話であり、一般的なWindowsアプリケーションに導入するものとは事情が異なり 31 ます。メモリ制約の厳しいプラットフォームで、そこそこアロケーションヘビーなゲームに適用して動かす場合の情報としてお聞きください。 ©CAPCOM 31

32.

実装上の課題物理メモリ容量にゆとりのある環境またはメモリスワッピングを前提としたメモリ管理一度確保したメモリはほとんどOSに返さないスレッドごとにメモリをOSから確保終了済みスレッドのメモリ解放が大きく遅延する実質的に利用できないメモリ空間が大きい(～30%) 最初に遭遇したのは、物理メモリ容量がかなり広大であるか、メモリスワッピングを前提としたかのようなメモリ管理が行われている点です。 32 一度確保したメモリはほとんどOSに返されず、スレッドごとにメモリをOSから確保するため他のスレッドとのメモリ共有も効かず、また、実行が終了したスレッドのメモリ解放も楽観的に扱われています。結果として、無駄になるメモリ空間の領域は全体の3割に届こうとしているレベルでした。それぞれの課題についてみていきます。 ©CAPCOM 32

33.

課題:メモリをほとんどOSに返さないパフォーマンス上の最適化戦略に依るもの都度、確保・返却しているとOSに負荷がかかるゲーム機では物理メモリが小さく、メモリスワッピングも利用できないできるだけ返すようにオプションを設定早期返却するようソースコードを書き換え // mimallocに用意されているオプション mi_option_disable(eager_commit); mi_option_set(segment_commit_delay, 0); mi_option_set(reset_delay, 25); // 次の機能を拡張 segment_cacheに上限を設定できるように page_free, page_retireを即時実行 page_free_collectの範囲拡張メモリをほとんどOSに返却しないのは、mimallocの最適化戦略によるものです。パフォーマンスを稼ぐため、一度OSから取得したメモリは返却されません。物理メモリ容量が小さく、メモリスワッピングが利用できるとは限らない環境には適さないため、できるだけ返すようにオプションを設定するほか、早期返却を促すようにソースコードを書き換えています。 ©CAPCOM 33 33

34.

課題:スレッドごとにメモリをOSから確保全てのメモリ確保はmi_heapのインスタンスを経由 mi_heapのインスタンスがスレッドごとに作成される mi_heap内のメモリは別スレッドからアクセス不可 OSへ返却されるまでは確保したスレッド(mi_heap)が独占空き領域となったメモリも他スレッドからは利用不可 mimallocでは、全てのメモリ確保はmi_heapのインスタンスを経由します。 mi_heapはOSから確保したメモリを切り盛りします。 mi_heapのインスタンスはスレッドごとに作成されます。スレッドごとにメモリを保持する戦略が、高い並列性を実現しています。 34 さて、ここからが問題です。一度mi_heapに入ったメモリはOSへ返却されるまでは、確保したスレッドが独占します。仮に使われていないメモリ領域があっても、別スレッドのmi_heapからはアクセスできないため、見かけ上の空き領域と実際に使うことのできる空き領域に差が生まれます。ゲーム内には数十を超える本数のスレッドが動作するため、このオーバーヘッド領域を削減しないとメモリが容易に枯渇します。この問題は次のように解決しました。 ©CAPCOM 34

35.

解決策:低優先スレッドを論理的に統合ゲームループに紐づいたパフォーマンス重視のスレッドプロセス内の本数は少ないスレッドごとにヒープを持ちmimallocの持ち味を活かす低優先ワーカースレッドミドルウェアの外部スレッド論理的な1本のスレッドとして管理ロックフリーの個所に適宜、ロックを挿入実行パフォーマンスよりもメモリ空間効率を優先 RE ENGINEにはゲームループに紐づいた、パフォーマンス上重要なスレッドと多少、実行が遅延しても影響のないスレッドがあり、パフォーマンス重視のスレッドは本数が少なく、その数のコントロールも容易であることからmi_heapをスレッドごとに持たせます。 35 他方の低優先のワーカースレッドやミドルウェアのスレッドはひとつにまとめて、論理的な1本のスレッドと見立てて同期をとりながらメモリ確保するようにしました。これによって、メモリ空間の無駄な領域は大幅に抑えられることとなりました。 ©CAPCOM 35

36.

課題:終了済みスレッドのメモリ解放終了済みスレッドのヒープ情報をリンクリストで管理ゲームループとは独立した区間で解放 // mi_heapfree()に増設したコールバック void re_mi_callback_heapfree(mi_heap_t* heap) { // 解放できるメモリをすべて手放す re_mi_heap_disable_delayed_free(heap); re_mi_heap_release_unused(heap); // 空でなければ管理リストに接続してバックグランドでGC if (!re_mi_heap_is_empty(heap)) { re_mi_heap_enqueue_abandoned(heap); } } 通常、終了済みスレッドに紐づいていたmi_heapのメモリは遅延解放されますが、 RE ENGINE内で破棄済みmi_heapを双方向リンクリストで管理し、ゲームループとは独立したタイミングで早期解放を行うようにしています。 36 なお、先のスライドで説明した論理スレッドの概念が入ってからはこの処理を使うスレッドはほとんどありません。 ©CAPCOM 36

37.

課題:大きなメモリ空間のオーバーヘッド対策は入れたものの、もともとmi_heapは広いメモリを確保するパフォーマンス上のメリットよりもメモリ空間効率が気になるメモリ確保粒度をパフォーマンスとのバランスが取れるレベルに調整 #define MI_SEGMENT_SLICE_SHIFT (11 + MI_INTPTR_SHIFT) // Segment Size: 8MiB #define MI_SEGMENT_SHIFT (8 + MI_SEGMENT_SLICE_SHIFT) // Medium Page: 128KiB #define MI_MEDIUM_PAGE_SHIFT (3+MI_SEGMENT_PAGE_SHIFT) // Small Page: 16KiB #define MI_SEGMENT_PAGE_SHIFT (MI_SEGMENT_SLICE_SHIFT) これまで挙げてきた対策を入れても、物理メモリが小さいプラットフォームでは、 mi_heapが広いメモリを扱うことになっている点が問題となりました。 OSからのメモリ確保粒度をパフォーマンスとのバランスが取れるレベルに調整しています。これらの数値に設定することでプログラム的に破綻する個所があれば、そこにも手を入れています。 37 この数値にすると、結果としてSmall Object扱いされる最大サイズが4KiBに制限されますが、 RE ENGINEの特性としてゲームループで集中的にメモリが確保される局面では4KiB以内のサイズが支配的であることを意識しての設定になっています。参考にされる際は、ここの数値設定は鵜呑みにせずお手元の環境のメモリ確保傾向を収集したうえで具体的な数値をご検討ください。 ©CAPCOM 37

38.

新課題:システムコールの頻発システムコールの実行コストは予測が難しいスパイクはできるだけ避けたい 60fps固定の格闘ゲームでは品質に直結 LRU方式でマップ済みメモリをキャッシュ LRU=Least Recently Used 70%程度のヒット率 struct mapped_t { u64 packed_virtual_addr : 44; u64 page_count : 16; u64 sparse : 1; u64 misc : 3; }; constexpr size_t LRU_Entries = 16; mapped_t mRecentPages[LRU_Entries]; これまでの取り組みを行うと、メモリをマップするシステムコールの発行数が増えてきました。システムコールの実行コストは予測が難しく、ある程度コントロールしないとゲームループ内でスパイクを誘発する恐れがありました。 38 ゲームループ内のスパイクは、フレームレートが固定の格闘ゲームでは品質に直結する問題です。そこで、LRU(Least Recently Used)方式でマップ済みメモリをキャッシュするようにしました。結果としてキャッシュヒット率は70%程度に上り、システムコール数の削減に繋がりました。 ©CAPCOM 38

39.

実装上の課題 WindowsのVirtualAlloc /VirtualFreeを前提とした呼び出しマップ済み領域を跨いだマップ要求マップ済み領域の一部のマップ解除マップしたメモリはゼロクリア保証他にも課題はあります。 WindowsのVirtualAlloc /VirtualFree APIはリッチな仕様を持っており、マップ済み領域を跨いだマップ要求やマップ済み領域の一部のマップ解除が可能です。 39 さらに、マップしたメモリはゼロクリアが保証されています。 mimallocはゼロクリア保証を前提とした作りになっています。 ©CAPCOM 39

40.

課題:リッチなVirtualAlloc/VirtualFree仕様仮想メモリ・物理メモリの管理を自力で行うことで解決仮想アドレス・物理アドレスともに64KiBごとに切り出すシンプルな実装マッピング状態を簡易ページテーブルで管理 mimallocからの複雑な要求を再解釈システムコールが直接サポートしないメモリマッピング要求に対応 struct page_t { u64 continuous_page_count : 12; u64 misc : 4; u64 packed_virtual_addr : 48; }; page_t mMappedPages[MaxPhysicalMem >> 16]; VirtualAlloc /VirtualFreeと同じ仕様を移植対象プラットフォームのAPIが持っていることが期待できないため、仮想メモリと物理メモリの管理を自力で行うことで解決しました。物理アドレスのアライメント保証や連続性の担保は別途行っていますが、基本的にはリニアに64KiBごとに切り出すシンプルな実装としています。マッピング状態の管理は簡易的なページテーブルを保持して管理しました。 40 これにより、mimallocから発行される要求を簡易ページテーブルと照らし合わせて再解釈し、システムコールを分割発行やキャンセルすることができるようになりました。 ©CAPCOM 40

41.

[beta]

課題:マップしたメモリのゼロクリア保証
プラットフォームごとの高速メモリクリアを実装
_mm256_stream_si256() + ループアンロール
ページ単位の割当はIntrinsicのアライメント要求を常に満たす
mimallocのメモリアクセスパターンではNon-Temporalな書き込みが有効
一般的なmemset()よりも高速
for (size_t i = 0; i < sz >> 5; i += 8) {
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
}

+ 0], kZero256);
+ 1], kZero256);
+ 2], kZero256);
+ 3], kZero256);
+ 4], kZero256);
+ 5], kZero256);
+ 6], kZero256);
+ 7], kZero256);

// 32
// 64
// 96
// 128
// 160
// 192
// 224
// 256

マップしたメモリのゼロクリア保証については、プラットフォームごとに高速なメモリクリアを実装することで十分に間に合いまし
た。
41
Windowsではバックグラウンドスレッドが空いているメモリページをゼロクリアしてプールすることで高速なゼロクリア済みメモリ
の提供を実現していますが、そこまで頑張る必要はありませんでした。
例示しているコードはAVX命令を使ってメモリクリアするルーチンです。
実際には、移植先プラットフォームのCPUのバリエーションぶん実装しています。
このコードがlibcのmemset()と異なる点は大きく2点あります。
ひとつは要求アドレスとサイズがページ単位に整列している保証があるため、
メモリクリアルーチンによく見られる、先頭と終端のアライメント調整が不要なことです。

©CAPCOM

41

42.

[beta]

課題:マップしたメモリのゼロクリア保証
プラットフォームごとの高速メモリクリアを実装
_mm256_stream_si256() + ループアンロール
ページ単位の割当はIntrinsicのアライメント要求を常に満たす
mimallocのメモリアクセスパターンではNon-Temporalな書き込みが有効
一般的なmemset()よりも高速
for (size_t i = 0; i < sz >> 5; i += 8) {
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
_mm256_stream_si256(&addr256[i
}

+ 0], kZero256);
+ 1], kZero256);
+ 2], kZero256);
+ 3], kZero256);
+ 4], kZero256);
+ 5], kZero256);
+ 6], kZero256);
+ 7], kZero256);

// 32
// 64
// 96
// 128
// 160
// 192
// 224
// 256

もうひとつは、CPUキャッシュを汚さないNon-Temporalな書き込みをしている点です。
mimallocはゼロクリアされることを期待してマッピング要求を行いますが、
実際にマップされたメモリ領域のうち即座に参照されるのは先頭ページくらいであり、
残りはCPUのサイクルからすると相当未来の話になります。

©CAPCOM

42

42

43.

実装上の課題確保スレッドと解放スレッドが異なるのはレアケース扱い解放キューに積まれて実際の解放は遅延される GC処理の呼び出しが必須 RE ENGINEでは多くのケースで該当バックグラウンドスレッドで初期化したものをゲームループで解放ゲームループ内で確保したものを別のワーカースレッドで解放 mimallocでは、あるスレッドのmi_heapに別スレッドからメモリが返却されることが特殊ケースとして処理されます。返されたメモリは解放キューに積まれます。解放キューに積まれたものはmi_heapに対するGC処理が必要となります。 43 RE ENGINEではバックグラウンドスレッドで初期化したものをゲームループで解放したり、ゲームループ内で確保したものを別のワーカースレッドで解放することが多くあります。 GC処理をいつ、どの粒度で実行するかはパフォーマンスの観点からとても重要です。 ©CAPCOM 43

44.

課題:別スレッドでのメモリ解放解放キューに積まれる挙動に統一命令キャッシュヒット率の改善 GC処理は所有スレッドのメモリ確保時にインクリメンタルに実施メモリ解放処理の速度に重きを置いた最適化メモリ確保は徐々に走る一方で、解放は一気に行われることが多い void* allocate(size_t sz, size_t align) { mi_heap_t* currentHeap = re_mi_get_default_heap(); s32 collectionSteps = 100; re_mi_heap_collect(currentHeap, collectionSteps); mi_heap_malloc(currentHeap, sz); // … この課題の解決方法としては、まず解放スレッドがいずれであっても解放キューに積む実装に統一しました。これは条件分岐を消去し、メモリ解放ロジックのコードサイズを小さくし、結果的に命令キャッシュヒット率を向上させました。 44 そのうえで、GC処理はmi_heapの所有権を持つスレッドで、メモリ確保時にインクリメンタルに実行します。 GCで処理されるオブジェクトのステップ数を数え、一定の水準に達するとGCを打ち切るものです。メモリ確保のタイミングで負荷はかかりますが、RE ENGINEの典型的なメモリ確保パターンとしては、メモリ確保は徐々に走る反面、解放は一気に、なおかつゲームループ内で行われることが多いことに着目した最適化です。 ©CAPCOM 44

45.

パフォーマンス allocate > 1MiB allocate > 4KiB allocate <= 4KiB free > 1MiB free > 4KiB free <= 4KiB 1 4 16 64 256 1024 4096 16384 65536 Nano seconds (smaller is better) VirtualAllocator Average N=10,000,000 PlayStation 5 HeapAllocator 最後に、パフォーマンスです。これは、既発売タイトルのゲーム内シーンで計測したものです。ゲーム実行中に頻出する4KiB未満の確保・解放と、低頻度の1MiB以上の確保・解放それぞれ分けています。 45 低頻度でサイズの大きいメモリ確保では圧倒的な速度差が生まれています。これはシステムコールのオーバーヘッドが影響しています。一方で、頻出かつゲームループに影響する4KiB未満で見ると、ヒープアロケータと比較してもゲーム実行に差し支えのないパフォーマンスが実現できています。断片化への対策とセグメントを跨いだメモリ管理ができるメリットを加味すれば、悪くない選択と言えるでしょう。 ©CAPCOM 45

46.

47.

まとめ RE ENGINEは多様なジャンルのゲーム制作に応えるため仮想メモリアロケータに対応し、柔軟なメモリ管理の時代へ mimallocを組み込むことで知見を蓄えつつタイトルリリースを実現基本的な部分は恩恵をうけつつ、自社に合わせた拡張・最適化を行った高品質なタイトル制作を支えるための徹底した実行パフォーマンスと動作安定性の姿勢は受け継がれている RE ENGINEでは多用なジャンルのゲーム制作に応えるため、仮想メモリアロケータに対応し、柔軟なメモリ管理の時代が到来しました。 47 つい最近までは内製のヒープアロケータのみでタイトル制作を支えてきました。仮想メモリアロケータの知見がない状態からmimallocを組み込むことで知見を蓄えつつタイトルリリースを実現しました。組み込むだけで得られる恩恵は大事にしつつ、自社の運用に合わせた拡張や最適化を行いました。高品質なタイトル制作を支えるため、実行パフォーマンスと動作安定性へのこだわりはヒープアロケータの時代から変わらず受け継がれています。 ©CAPCOM 47

48.

今後の展望一定の成果は見られたが、長い歴史で培われたノウハウの適用は部分的パフォーマンスやメモリ空間効率にはまだできることがあるはず完全内製の仮想メモリアロケータ RE ENGINEに最大限マッチするメモリ確保戦略より少ないメモリ空間オーバーヘッド培われてきたノウハウを最大限活用した最適化よりよいゲーム制作のための惜しみない技術研究開発この一連の取り組みでタイトルリリースという一定の成果は得られましたが、ヒープアロケータの長い歴史で培われたノウハウの投入は限定的でした。パフォーマンスやメモリ空間効率にはまだもっとできることがあるはずだと考えています。 48 そこで、完全内製の仮想メモリアロケータの実装に取り組んでいます。 RE ENGINEに最大限マッチするメモリ確保戦略を投じることで、より少ないメモリ空間オーバーヘッドと高い水準のパフォーマンスを両立します。カプコンでは、よりよいゲーム制作のための惜しみない技術研究開発が可能です。 ©CAPCOM 48

49.