574 Views
May 07, 21
スライド概要
2021/05/07
Deep Learning JP:
http://deeplearning.jp/seminar-2/
DL輪読会資料
DEEP LEARNING JP [DL Papers] 自動運転技術の課題に役立つかもしれない論文3本 Makoto Kawano (Matsuo Lab.) http://deeplearning.jp/
自動運転技術 パイプライン処理が基本 ‣ 各モジュールごとに機能が実装されている状態 Sensing • カメラ • LiDAR • 加速度センサ • GPS Perception Planning Control • 物体検出 • Semantic • 経路予測 • 自車 • 他車 • 移動物体 • 車体の制御 • アクセル • ブレーキ • ハンドル Segmentation Localization • 走行位置の特定 2
自動運転技術における課題 実世界で深層学習ベース手法の限界 ‣ 分布シフト ✓ 天気・多差路など ‣ Q1. 分布シフトが起きた時にうまく対処したい データを増やせば良い? ‣ アノテーションのきつさ ✓ 動画 x 対象の数の多さ ‣ Q2. ラベルなしデータをうまく使えないか? 3
アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers (arXiv 2021/4/29) ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples (arXiv 2021/4/28) ✓ FAIRチーム 4
アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples ✓ FAIRチーム 5
この論文では何をするのか? 6
𝒟 𝒟 問題設定 仮定1:expertによるデモンストレーション 時間に沿ったシーンx(画像や点群などの高次元データ表現)におけるexpertの経路(i.e. プラン) y のペアで構成されたデータセット = i i N {x , y }i=1にアクセス可能.経路は,expert policy πexpert( ⋅ | x)からサンプリングされる:y ∼ πexpert( ⋅ | x) タスク目的:未知のexpert policyπexpertの近似 ‣ デモンストレーション にのみもとづく模倣学習 ‣ 単純化のため,仮定をさらに追加 7
問題設定 仮定2:Inverse Dynamics 現在の状態と次の状態(走行位置)を与えれば,それに従う制御(アクセルやハンドル)を行う逆動 力学モデル(Bellman 2015, PID Controller, Ⅱ)にアクセス可能.つまり,状態のみの経路 y = (s1, …, sT )を操作することで,local plannerにより行動がきまる: at = (st, st+1), ∀t = 1,…, T − 1 仮定3:Global Planner 目的地の位置 と制御 (交差点での左右折•2番目の出口から出る)の[両方/どちらか]を特定する ことができるglobalなナビゲーションシステムにアクセス可能 仮定4:Perfect Localization 利用できる位置情報(目的地や自車の走行位置)の精度は完璧である 𝕀 𝒢𝒞 8
提案手法:Robust Imitative Planning 3種類の性質を持つ模倣学習モデル ‣ エキスパートの経路における分布を提供 ‣ 分布外検出のためにepistemic uncertaintyを計量 ‣ 分布シフトに対してロバスト性を持つ 9
Bayesian Imitative Model エキスパートの経路における分布密度の推定 ‣ 確率的”模倣”モデルq(y | x; θ)の尤度最大化 θMLE = arg max (x,y)∼ [log q(y | x; θ)] ‣ モデルパラメータθに事前分布p(θ)を設定=>モデル全体に分布が設けられる 𝔼 𝒟 𝒟 𝒟 ‣ データ が観測された時,事後分布p(θ | )を持つ 10
Practical Implementation Autoregressive Density Estimator [Rhinehart et al., 2018] ‣ 自己回帰における正規分布の積:多峰分布をモデリングできる[Uria et al., 2016] 事後分布の推定 ‣ K個の模倣モデルのアンサンブルによる事後分布p(θ | )の近似 𝒟 ✓ k番目のモデルqkのパラメータをθkとする 11
不確実性の種類 偶然的不確実性/aleatoric uncertainty ‣ データが持つ真の確率性 データに含まれているノイズ ‣ どんなにデータ量があっても,ノイズがあればエントロピーは高い ‣ コインの裏表予測では,p(裏)=p(表)=0.5が学習されてしまう 認識論的不確実性/epistemic uncertainty ‣ 知識不足によって生じる ‣ データ不足によってモデルのパラメータが決まらない ‣ パラメータの事後確率も末広がりになってしまう 12
分布シフトの検出 事後分布p(θ | )における対数尤度log q(y | x; θ)のdisagreementを利用 ‣ 対数尤度:モデルθにおける状況xにおける経路yの質を表現 ‣ 事後分布に関する模倣モデルの分散を利用 u(y) ≜ Varp(θ| )[log q(y | x; θ)] ✓ 分布内シーンにおける経路:低分散 ✓ 分布外シーンにおける経路:高分散 𝒟 𝒟 ‣ 検出としては十分だが,分布外の状況下での対応としては不十分 13
不確実性の下でのplanning 事後分布p(θ | )における目的地 へのplanningをRobust Imitative Planning(RIP)として定式化 ✓ ⊕:事後分布への演算子(後述) ✓ 目的地尤度:例)目的地の位置sT を中心とした正規分布p( | y) = (yT | yT , ϵ 2I) ‣ 直感的には次の経路yRIPを選択 ✓ エキスパートによる経路っぽい(尤度最大化する)経路 𝒩 14 𝒢 𝒢 𝒢 𝒢 𝒢 𝒟 𝒢 ✓ 目的地 に”近い”経路
⊕:事後分布における集約演算子 深層模倣モデル[Rhinehart et al., 2020] ‣ 事後分布から一つのθkを選択(=点推定) ‣ epistemic uncertaintyが使えない&見慣れないシーンで失敗しがち 2種類の集約演算子を提案 ‣ Worst Case Model: 不確実性を悲観的に見るロバスト制御[Wald, 1939] ‣ Model Average: Epistemic uncertaintyを周辺化するベイズ決定理論 15
提案集約演算子 Worst Case Model (RIP-WCM) ‣ 最悪ケースを想定して,そこで最適化する[Wald, 1939] ‣ 一般にarg max minはtractableではないがアンサンブルなら簡単 y θ ✓ K個のモデルで最小値を見つければ良い Model Averaging (RIP-MA) ‣ 事後予測分布を利用 ‣ 本来ならintractableであるが,アンサンブルによって解決 ✓ (結局は単にモデルの平均?) 16
実験1:分布外シーンにおけるロバスト性 4種類の問いに応えるための実験設計 ‣ Q1. 自動運転/模倣学習/不確実性を扱わない手法で分布シフトを検出可能か? ‣ Q2. これらの手法が分布シフト下でロバストかどうか? ‣ Q3. RIPによる不確実性計量は,新しいシーンを特定できるか? ‣ Q4. RIPによる明示的な分布シフト対応は,性能を改善するか? 2種類のデータセットを利用 ‣ nuScenes(実オープンデータ):データ分割ができないため,分布シフトの制御不可 ✓ 基本Q4.のみ(部分的にQ2)を解決 ‣ CARNOVEL(CARLA, シミュレータ) ✓ 分布外シフトを制御して,Q1とQ3を解決 17
nuScenes
評価指標:Displacement error
‣ ICRA2020 nuScenes prediction challengeで利用
<latexit sha1_base64="qDYVH+52/OSLbXD4gxQ0Eicfa5M=">AAADSnicfVHLbhMxFHXSAmV4pbBkY4iQ0lCiTBaAhCoVKBIbRJGStFKcRh7nzsSKxx5sDySy5jNY8kf8AL/BDnWDJw+gKeJKozk+5/hx74kywY1tt79XqlvbV65e27ke3Lh56/ad2u7dvlG5ZtBjSih9GlEDgkvoWW4FnGYaaBoJOImmr0v95BNow5Xs2nkGw5QmksecUeupUe0LiSDh0lHBE9ksAoyJhZl1L4/eFA0Szff8WnMqEwEfMYk1ZS4sXLfAxOTpyNmDsDhbLPugLTaeKfCT5f/MNdf8PiYvMEmpnUSxmxf4ADfMKPTsWFmz7+3dvYCAHK+fMarV2632ovBlEK5AHa3qeLRb+erPYnkK0jJBjRmE7cwOHdWWMwFFQHIDGWVTmsDAQ0lTMEO3mF+BH3lmjGOl/SctXrB/73A0NWaeRt5Z9mA2tZL8lzbIbfx86LjMcguSLS+Kc4GtwmUYeMw1MCvmHlCmuX8rZhPqh2x9ZAE5At+Lhnf+3PcZaGqVbjpCdZLSWeF7S8h+if5n5HJt9CggEj4zlabUj5pEdgKWFh4oMS7bU8KRJbfpnHvX7/Q2xdkfcVZcmLSLlJpaGpky0HAzvsug32mFT1udD5364atVtDvoPnqIGihEz9AheouOUQ8xdF55UGlWHle/VX9Uf1bPl9ZqZbXnHrpQW9u/AADEE4g=</latexit>
T
X
1
ADE(y) ,
kst
T t=1
s⇤t k, y = (s1 , . . . , sT )
‣ 確率的モデルの場合,k個のサンプリングを利用可能
<latexit sha1_base64="0bwCpyr8jBJmwfLnwM6sg5bDL/g=">AAADPHicfVFNbxMxEPUuXyV8pfQISBYRUlpVUTYH4IJUoEhcEEUibaU4jWzH2Vjxx8b2QlbWnvkV/BX+B3duqFfOeJOtoAliJEtP772Z8cyQTHDrut3vUXzl6rXrN7ZuNm7dvnP3XnP7/rHVuaGsT7XQ5pRgywRXrO+4E+w0MwxLItgJmb2u9JNPzFiu1UdXZGwocar4hFPsAjVqfkGEpVx5LHiq9soGhMixhfOSq5eHb8qRn5Xt+W4gDccqFWwOUZBGHnlEijPPSxQ8/EVSngUnRJZLOG8HCaLQ1UFEFrtlXbKq166zQsX9DmJqfNF41Gx1O91lwE2Q1KAF6jgabUdf0VjTXDLlqMDWDpJu5oYeG8epYGUD5ZZlmM5wygYBKiyZHfrlxkr4JDBjONEmPOXgkv07w2NpbSFJcErspnZdq8h/aYPcTZ4PPVdZ7piiq0aTXECnYbV+OOaGUSeKADA1PPwV0ik2mLpwpAY6ZGEWw96Fuu8zZrDTZs8jbFKJF2WYLUX7FfqfkasLY0ANpNhnqqXEYdWIuClzuAxAi3E1nhYerbh1ZxFc1XRk4osNcfFHXJSXNu2J1jOHia0OmqyfbxMc9zrJ007vQ6918Ko+7RZ4AB6DNkjAM3AA3oIj0AcUnEc70cPoUfwt/hH/jM9X1jiqc3bApYh//QaVmhFj</latexit>
minADEk (q) ,
min
i
{yi }k
i=1 ⇠q(y|x)
ADE(y ) .
‣ 最終結果のみの比較
minFDE1 (y) , ksT
<latexit sha1_base64="KGKyk8sTaQk/ABWqfr9s+R3ZxXc=">AAADFnicfVHLbhMxFHWGVxkeTWHJxiJCKlGJMlkAywoKYoMoUpNWqkPkcW4mVvwYbA9kZM1/sOFX2KFu2fIRbGGLJ0kFTRBXsnx0zvHjnpvmglvX7X5vRJcuX7l6bet6fOPmrdvbzZ07A6sLw6DPtNDmJKUWBFfQd9wJOMkNUJkKOE5nz2v9+AMYy7U6cmUOQ0kzxSecUReoUZOSFDKuPBU8U+0qxpg4mDsvuXp58KIa+aTaJWn5MNCGU5UJeI/JAIzDduSPKvxoub/z7WrFk71OTECNz68cNVvdTndReBMkK9BCqzoc7TQ+k7FmhQTlmKDWnibd3A09NY4zAVVMCgs5ZTOawWmAikqwQ7/IosIPAjPGE23CUg4v2L9PeCqtLWUanJK6qV3XavJf2mnhJk+Hnqu8cKDY8qFJIbDTuA4Wj7kB5kQZAGWGh79iNqWGMhfij8kBhF4MvA73vsnBUKdN2xNqMknnVegtI3s1+p+Rq3NjQDFR8JFpKWmImqRuCo5WAWgxrtvTwpMlt+4sg6vuLp34ckOc/xHn1YWkfar1zNHU1gNN1se3CQa9TvK403vba+0/W412C91D99EuStATtI9eoUPURwydoR/oJ/oVfYq+RF+js6U1aqzO3EUXKvr2G2ZmA5s=</latexit>
⇤
sT k .
18
実験1の結果(nuScenes)
<latexit sha1_base64="m6nHM9yQYv0+hkWWZPrerqVTZCY=">AAAJ8XicvVZLb9tGEKbThyL3FTfHXIiaLdwgJvgQRQm9JLZbNAe1ahvHAUzVWFIrmfByl9hd1hYY/pAeChS59o/02t76bzorkbIoyal06QIEZuabmf1mhtxlmJJYSMv6Z+feO+++937jfnP3gw8/+viTB3ufvhQs4xE+jRhh/FWIBCYxxacylgS/SjlGSUjwWXh1rPCzXzAXMaMv5CTFgwSNaTyKIyTBdLHX+CoI8TimuUQQ8rg4l4NdXQ8iTCXmMR0rZe6QEcSLnMB6DU8BGKCSpTwjeKpsur6YhSYZkTHUkCU0d4s8KvJA4hspZX7EhGS0KDbz/gmIopRxrAKCYOYeqZbkzmGrqGTv0C8qeDOGSUyfnXxtXOR2YehGMGTXFHHOro31Xt5/eH2zRa7/YceqU6qL4SjvYXnJhqLYcFivi/zAcCzfNXQBrwsWT3TDs0BBSUqUxlJMDwljqZ4SRCnM6Mvi7lkeGLbd6W6Va15AEg/nr2DvRd/4OQ+GMUoYHYoslvACx2Mh4dU1yu113WiZtruguqbTWlC7puNu6Vxy6anC+khebkLCNVXFC6pbz2t3t3QuSRwz+OS/w3JDDv6C6pgtu15be0vndUM5ed5TXCKShYpIff92K0gTy7S8eubOzOosWDum40ytS+PozKxWq5ah682sdi1D155ZO3OmPz7vHx4dv4Wg565L7/qr6X2zW1Kpj8rzV4txTN9aR9Dtzqzu+lYqtr1nd5NdCF8k664j2y7J+rUMVeftWoZ2d9087FvrQjfPlrs5jwjgnIHPp1tAmL7EUmGO6XQqzFrCfLPlVZi3hAFrt8LslZzt9l1YByZVYa3bhodMSpaUPQ8wHc5vv91KU5flxYN9xVMtfVWwS2FfK1f/Ym/nNziGoyyB6zUiSIhz20rlIEccTkOCIXsmcIqiKzTG5yBSlGAxyKfXfKF/DpahPmIcHir1qXUxIkeJEJMkBM8ETiCxjCnjOuw8k6POII9pmklMo9lGo4zokunqn0EfxhxHkkxAQBGPgaseXSKOIvhHgEwnGGrhuAd5v08xR5Lxx3mA+DhBNwXUNg6eKOltjjGtHEHaDSi+jliSIGh1EMpLLBFc9iEjQ1UeI3DxT23LnhPwUtXBYCcr4M0teFPUOp2HjF3BSIUaqL08vlXhpWPabdP5wdl/elSO9r72SPtMO9Bszdeeat9qfe1UixpvGn82/mr83RTNX5u/N9/MXO/tlDEPtdpq/vEvohamkQ==</latexit>
Methods
}F
MTP
MultiPath}F
CoverNet}F
|
DIM
|
RIP-BCM
RIP-MA|
|
RIP-WCM
Boston
Singapore
minADE1 # minADE5 # minFDE1 #
(2073 scenes, 50 samples, open-loop planning)
minADE1 # minADE5 # minFDE1 #
(1189 scenes, 50 samples, open-loop planning)
4.13
3.89
3.87
3.24
3.34
2.41
9.23
9.19
9.26
4.13
3.89
3.87
3.24
3.34
2.41
9.23
9.19
9.26
3.64 ± 0.05
3.53 ± 0.04
2.48 ± 0.02
2.37 ± 0.01
8.22 ± 0.13
7.92 ± 0.09
3.82 ± 0.04
3.57 ± 0.02
2.95 ± 0.01
2.70 ± 0.01
8.91 ± 0.08
8.39 ± 0.03
3.39 ± 0.03
3.29 ± 0.03
2.33 ± 0.01
2.28 ± 0.00
7.62 ± 0.07
7.45 ± 0.05
3.48 ± 0.01
3.43 ± 0.01
2.69 ± 0.02
2.66 ± 0.01
8.19 ± 0.02
8.09 ± 0.04
Q4.への答え:全てで勝ってるからyes.
Q2.への部分的な答え:ベースラインはRIPに勝ててない
‣ 不確実性を扱わないとロバストにならないっぽい
19
CARLAを利用したCARNOVEL 普通に走行させた訓練データと訓練データにない特殊なケースの評価データ ‣ 環状交差点や斜面,角度のきつい右折など 20
CARNOVELの評価指標 Infractions per kilometer = ナビゲーションが安全かどうか ‣ 1キロメートルあたりの道交法違反と交通事故の回数 Success rate ‣ 違反なしに目的地にたどり着けた割合 Detection Score = 悲惨なイベントを起こす分布外シーンを予測できるか ‣ 違反行為と不確実性の相関係数 Recovery Score = 分布シフトから復活できるか ‣ 新しいシーンでの成功率 21
実験2の結果 Q4.とQ2.の答えが確定 ‣ RIPによるepistemic uncertaintyは分布シフト下で性能を改善する 22
Adaptive Robust Imitative Planning
RIPだけでは,分布外シーンで対応しきれない
<latexit sha1_base64="HRbj9GcJ98lUTAfBVHvOgopzWk0=">AAAOsHicnVfrchM3FDbQC7htCu1M//SPpjitA46xnTuUDoQEmgEaKASYyaYZ7a52vUQrbSRtYo9GfaU+T9+gj9Ej7foaO52pf+zKOhfpfPrOOVo/o4lUrdbfV65e++TTzz6/fqP6xZdfLXx989Y37yTPRUAOAk65+OBjSWjCyIFKFCUfMkFw6lPy3j95YuXvz4iQCWdvVT8jRymOWRIlAVYwdXzrxl+eT+KEaUxjLhLVTc1h96iKkPeGqF0WPulisR89BuELWEGbUvL8/AlPU8KULt9G37uHzJh8j+3nSu+xLAdZ8bIyN9Ke53VlhgOil1ea6yQ1nkwxpVah2I3Cfk6xMIfqSFP0SA/Um5010DaImkVQrnkpVt0AU71jauhHtENSzqQSLjaJPM/qPLeS3/LUJwLxCKU8JLSUac8BqMELxf6yT3NiRj63Tc2A6SylHaww8vMoIsJc5krhfK6Pd1gkmAUEqa4gsstpWLryCAuHAAxxajVt5DbqxUmNxf9W+X+4+r7eM3V8rJAHDFJIHmtlGvZ5t22WLKovOOCEMooZA3ALuE/rnt8vLTy/9wAeqksUdgZ7aaLgcM5IcQyFySKqZfVSa2A4Oldn99JpZ1wqIhI+WAqsBnrPzHDJvrN4xmFnNDmBxOhyHo4sxnZTeh15nMQVJhxy2xDfiWW//TOg/eMsE7yXwPqDWEa7SxjwgsDRNhBpxs0GCgnJEGGS2LR0Pp9aMjizhIWkh2onD9vIoyFXEj2vGQ06CG1z+AtszpDEaUYJCoF2kqgJ3h/rE4id2xwnkFiK9JT2wdAY7ckkNWgiR7wHzvObwl+5cSxwSmDvEkWCpwUgDVikgKpYAFyhcfRKR28FTtgwtJ8kBFJbDniacQYoobMEoxQDTHk6fhhEKoscJCmqv3yxu4TctpWyNWT3lDX/rHuCRJqc3k8BryUztRdKIoWF4OfIwyIG/8e6lJfRAnN3ARjYbq/hGFHsfwo14xwdgj8eoynaohFvkSeSuKuOapfyYZ/ZClzkQsJi47LILT9O0bGdlxETdtaE9CeqvjQ4Hu99N6FEM66GWiHAaUpWPAMCCO7nUqFkmE523fkoxgTyMwmWuf+RBFa/xLT/h74zD88+CHLgZkGrEl7t8Yzm0szEbAyyu4XC3AR1gUwAObuCFnpTGOMQZ8qxp5DvFmyyhRSAECRMXIzobFBgoepb0SDgmkMLuHqaY5qoPnJhOpXpTJ6LKPh2GOb10ukSelhoa6jrQK/LKtpF4hXnMAPIAffQIOG8vUiPr/oLKppMwQ0061Rr6HVORB+RXmYXwMoxc5jC4210e5IN49NBnqFhQrm1xzwcZOGsQgj5PdFOR0d5DjcNhFkfReR8GZqfGjtVBMWoy8PicMefU4SpYduQLmy4aFteEHI1otzkhi9kZmMy0+YlKsSV1Y1bdjANWTuoCwEEANvXs4j82EZnEw/9XqTuqBO+GisZHhgQ6u5i9wEQkWSm6prS6HZ2fPN2q9lyP3Rx0C4Htyvl79XxrWv/eCEPcot7QLGUh+1WBu0fC5UEth15uSRwCTjBMTmEIYNmII+0i8GgRZgJUQSHGXEo6G523ELjVMp+6oOmhVNOy+zkLNlhrqLNI53Y6yC0ymKhKKdIcWTvqShMBNQq2ocBDiD0JEAB3EVxYBtV1dshEIsgL8HvPtAaKy7u6LJ8GYgt9hp2dJliwgaKMKp6jJxD40oxoD0qdz5cy2x4nEJrdXPTmn3QcrSLdP+CsDcS9swE0rZHn8BVQ07ibwucZO6ySsKGyCk8GQcGHI0o0Jk8s/KkJqZ6bq7hnsqnIAxJBK4vElOL2De61Wg1V1c37Gtjtd2arc8FZvHQorm51rL6K501+2ptbc4x6xNK+fnQbKuzZfXXt1btqw3Ws81iQQgbWq2urzurjcJqc95igNrQZn2l2NnGZmGzOscmywVchkZLbbXaTr+1Aq+1tc7WbDNqK/MEiM3O1maBYMPFOWUHn2xlZdOxwH0HxgroQIOlhMWqqz24itn7oP2cghw11Sk6QU2CdTybiRIqLJHahy8nQiFR7JytDe3pSnBx8K7TbK83O687tx9tl1XieuX7yg+VeqVd2ag8qvxaeVU5qATV76o/V3erTxc6Cx8WjhdwoXr1SmnzbWXit/DxX8s4EnU=</latexit>
Algorithm 1: Adaptive Robust Imitative Planning
Input:
D
K
B
⌧
‣ 人間の運転手に制御を返せばいいのでは?
‣ →その時の正解データを手に入れられる!
1
2
オンライン学習を用いて不確実性を下げることが可能
‣ 不確実性が閾値を超えたら,運転手に制御を譲渡
3
4
5
6
7
‣ 閾値:false-negativeのレベルに一致
Demonstrations
Number of models
Data bu↵er
Variance threshold
I(at |st , st+1 ) Local planner
q(y|x; ✓)
Imitative model
p(G|y)
Goal likelihood
p(✓)
Model prior
// Approximate model posterior inference, e.g., deep
ensemble
for model index k = 1 . . . K do
boot
Bootstrap sample dataset Dk ⇠ D
Sample model parameters from prior, ✓ k ⇠ p(✓)
Train ensemble’s k-component via maximum likelihood estimation
(MLE) // Eqn. (??) ✓ k
arg max✓ E(x,y)⇠Dk [log q(y|x; ✓)]
// Online planning
x, G
env.reset()
while not done do
Get robust imitative plan // Eqn. (??)
y⇤
arg maxy log q(y|x; ✓) + log p(G|y)
✓
8
9
10
11
12
13
14
// Online adaptation
Estimate the predictive variance of the y⇤ plan’s quality under the
model posterior // Eqn. (??) u(y⇤ ) = Varp(✓|D) [log q(y⇤ |x; ✓)]
if u(y⇤ ) > ⌧ then
y⇤
Query expert at x
B
B [ (x, y⇤ )
Update model posterior on B // with any few-shot
adaptation method
at
I(·|y⇤ )
x, G, done
env.step(at )
23
Adaptationの実験 Q5. RIPによる不確実性推定はエキスパートへの問い合わせに使えるか? Q6. AdaRIPはsuccess rateを改善するか? 評価指標:Adaptation Score ‣ success rateの改善度合い:オンラインデモの数における関数 24
小まとめ 分布シフトに対して,検出・復旧・適応は可能か? ‣ Epistemic uncertaintyの計量を可能にした模倣学習RIPを提案 ‣ オンラインフィードバックを受けるAdaRIPを提案 コードとベンチマークを提供 ‣ OpenAI Gymのような使い方が可能 今後の課題 ‣ リアルタイム実行が要求されている時,アンサンブルモデルは厳しい ‣ オンライン最適化をすると,破滅的忘却が起きてしまう 25
アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples ✓ FAIRチーム 26
TL;DR 教師なし(自己教師あり)学習でViTを訓練させてみた 27
背景 Vision Transfomer(ViT)の性能がかなり良い ‣ 詳しくは岩澤さんの資料を見てください ‣ CNNといい勝負 ‣ 計算量大,大量のデータが必要で微妙 ‣ ViTならではの性質もわかってない 自己教師あり学習をしたらどうなるのか? ‣ BERTやGPT(NLP)ではかなりうまく行ってる ‣ →クラスラベルの推定だと教師信号を減らしてしまってる ‣ 画像も同様のことが言える 28
DINO: knowledge DIstillation with NO labels DINO = 自己教師あり学習+知識蒸留 29
知識蒸留による自己教師あり学習 生徒モデルgθsの出力を教師モデルgθtに近づける ‣ 温度つきソフトマックスを利用して,カテゴリカル分布をモデル ‣ 二つの分布の距離をクロスエントロピーでとる 異なる変換をした画像を各モデルに入力する ‣ global views g g x1 , x2 :元画像の50%以上の大きさ min θs ∑ g g ∑ x∈{x1 ,x2 } x′∈V,x′≠x H(Pt(x), Ps(x′)) ‣ local views:元画像の50%以下の大きさ ‣ 教師モデル:global viewsのみ    ‣ 生徒モデル:local viewsのみ localの特徴量をglobalの特徴量に近づかせる 30
学習 生徒モデル:SGD,教師モデル:学習なし ‣ 生徒モデルの重みを指数的移動平均したものを利用(i.e. momentum encoder) θt ← λθt + (1 − λ)θs ✓ λ:0.966から1へcosineスケジュール ‣ お気持ち:mean teacherに近い役割 ✓ 最後の重みではなく,学習途中の重みを平均とったほうが性能が良い ✓ ->モデルアンサンブルのようなもの 31
ネットワークアーキテクチャ ネットワークgはバックボーンfと写像ヘッドhの合成: g = h ∘ f ‣ ダウンストリームタスクではfの特徴量を利用 ‣ h:3層のMLP + ℓ2正規化 + weight normalized 32
Model collapseの回避 自己教師あり学習:model collapseが起きやすい ‣ Collapse:全ての入力に対して同じ表現になってしまう現象 教師モデルの出力のcenteringとsharpeningによるcollapse回避 ‣ sharpening: 特定の次元に集中させる ✓ 温度つきソフトマックス ‣ centering: 特定の次元に集中させずに一様分布になるようにする B 1 c ← mc + (1 − m) gθt(xi) B∑ i=1 33
実装や実験まわり DeiT(Data-e cient Image Transformers)の実装に準拠 ‣ ImageNetで学習 ‣ adamwオプティマイザ x 1024BS ✓ ウォームアップ+cosineスケジュール ‣ 16GPU(多分V100) ‣ 温度τs = 0.1,τtは最初の30エポック0.04-0.07 ‣ データ拡張:color jitter/gaussian blur/solarization multi-crop ffi 34
分類精度 ResNetの時よりDeiTにした時の性能がとても良い ‣ k-NNがlinearを乗せた時と同じ 35
semantic segmentation Semantic Segmentation用に学習してなくてもいい感じ ‣ 近傍法ベースのsemantic segmentation[Jabri et al.] 36
Supervisedと比較 Supervisedよりself-attention mapもいい感じ 37
小まとめ ViTを知識蒸留+自己教師あり学習してみた ‣ 教師なしでも物体に着目しているself-attention mapが得られた ‣ 特徴量を使ったk-NNでかなりいい精度(ImageNetで78.3%) 色々な実験をしているので詳細は論文を見てください ‣ さまざまなダウンストリームタスクやablation studyをやっている ‣ アーキテクチャの模索も色々 画像におけるBERTを目指しているらしいので,今後に期待? 38
アプローチ&書誌情報 A1.分布シフトが生じていることを検知できたらいい ‣ Can Autonomous Vehicles Identify, Recover From, and Adapt to Distribution Shifts? (ICML2020) ✓ Sergey Levine / Yarin Galのチーム ✓ https://sites.google.com/view/av-detect-recover-adapt A2. 自己/半教師あり学習使えば良い ‣ Emerging Properties in Self-Supervised Vision Transformers ‣ Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples ✓ FAIRチーム 39
TL;DR 自己教師あり学習にラベルつきデータを利用するといい性能が出る 40
Predicting view Assignments With Support Samples 大きなラベルなし画像 = N (xi)i=1とラベルあり画像 = (x M i, yi)i=1(M ≪ N)を仮定 ‣ 目標: と を使って事前学習で表現を獲得すること ✓ ‣ は ne-tuningに利用 + ̂ ̂ Multi-cropを利用してデータxを2種類のデータxとx にして双方の表現を近づける ✓ 双方の表現とラベルありデータの表現の類似度計算をして,疑似ラベルを出力 𝒮 ✓ 疑似ラベル同士で比較をする 𝒮 fi 𝒮𝒮 𝒟 𝒟 41
PAWSアルゴリズム 各クラスのデータとの類似度でラベルを生成 x̂i xi fθ zi データ拡張 (multi-crop) xs, ys ∼ + x̂i fθ + zi πd(zi, z ) = ∑ (zsj,yj )∈z d(zi, zsj) ∑z sk∈z d(zi, zsk) yj pi fθ + H(ρ(pi), pi ) + + H(pi, ρ(pi )) ρ(pi) + ρ(pi+) −H 2 ( ) zs 勾配カット エントロピー 温度を下げる 𝒮 𝒮 𝒮 𝒮 =尖らせる + ρ(pi ) =一様にする 42
実験結果 10分の1くらいのエポック数で精度も高い 43
小まとめ ラベルありデータも自己教師あり学習に使う ‣ PAWSという学習アルゴリズムを提案 ‣ Simularity Classi erπdを用いることで,ラベルありデータにover ttingしない ✓ ラベルありデータが外部記憶のような役割で,πdは注意機構の役割っぽい • ピアジェの同化と調節と関係している?(興味があれば論文を) ‣ 既存手法よりも約10倍効率良く,かつ高精度で学習が可能であることを示した fi fi 44
発表まとめ 自動運転技術に役立ちそうな論文を独断と偏見で選択 ‣ 実世界を網羅したデータセットの作成(アノテーション含)は厳しい ✓ 1)現時点でデータが足りているのか判断したい ✓ 2)使ってないデータは(おそらく)大量にあるから使えないか 感想としては: ‣ 実応用に耐えうるため,ベイズ的な考え方は重要? ‣ 自己教師あり学習では,出力分布の尖り具合(一様具合)を制御すると良いっぽい? ‣ BERTのような万能?モデルが今後出てくるのか? 45