2024_収益向上を目指した強化学習ベースの蓄電池制御手法の検討

4.1K Views

March 28, 24

#強化学習 #蓄電池 #太陽光発電 #蓄電池制御 #需要家 #アグリゲーター #収益向上

スライド概要

本研究の目的は、アグリエゲーターの収益向上のため、強化学習を用いた蓄電池の制御手法を検討することです。アグリエゲーターにおける実証実験における課題例として、PVの影響や、蓄電池の容量不足による制御失敗が挙げられます。また、アグリエゲーターにおいては、売電収入だけでなく、インバランスを抑制することが必要です。本研究は、先行研究にない、強化学習を用いた実際の予測データから運用計画を策定する方法を提案し、1軒の需要家において充放電計画を予測から策定し、収益を向上させることを調査しました。

小平　大輔

@daisuke-kodaira

スライド一覧

小平大輔 - 筑波大学エネルギー・環境系助教。現在の研究テーマは、電気自動車の充電スケジューリング、エネルギー取引のためのブロックチェーン、太陽光発電とエネルギー需要の予測など。スライドの内容についてはお気軽にご相談ください：kodaira.daisuke.gf[at]u.tsukuba.ac.jp

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

ブロックチェーンを用いたP2P電力取引に関する研究

ブロックチェーン

小平　大輔 5.7K

住宅用太陽光発電に併設した蓄電池の深層強化学習による運用

機械学習強化学習蓄電池太陽光発電

小平　大輔 4.3K

2021_アンサンブル学習による電力需要予測

機械学習

小平　大輔 4.1K

2024_Quantile Regressionを用いた確率的電力価格予測

電力価格分位点予測電力取引市場

小平　大輔 2.8K

2022_太陽光発電出力予測における学習データの欠損値補完

小平　大輔 2.5K

2021_機械学習と地理的な発電分布からの予測を組み合わせた太陽光発電出力予測

小平　大輔 2.1K

各ページのテキスト

2024/2/1 収益向上を目指した強化学習ベースの蓄電池制御手法の検討 Reinforcement Learning-Based Battery Control Method Aimed at Increasing Profits for Prosumers 筑波大学理工情報生命学術院システム情報工学研究群スマートグリッド研究室博士前期課程2年 202220845 後藤拓也指導教員安芸裕久教授実質指導教員小平大輔助教

Introduction アグリゲーターは採算がとれるのか？需要家と電力事業者をつなぐアグリゲーションビジネスの実証実験が政府主導で実施【目的】技術の実証、制度課題とビジネスモデルの検討実証実験における課題例 ① PV(太陽光発電)の影響 • 発電量の予測値と当日の実際の値の乖離が発生しやすい ② 蓄電池の容量不足による制御失敗 • 悪天候により、十分に充電が行えない • すべて放電してしまい、その後の制御に支障が発生出典：オープンプラットフォーム型アグリゲーションビジネス実証事業東京電力コンソーシアム平成31年度需要家側エネルギーリソースを活用したバーチャルパワープラント構築実証事業【B-1事業】 1 理想：2kWh放電現実：残量1kWh

Introduction 取引市場とペナルティスポット市場：前日午前10時締切・指令値間隔30分。売り手と買い手の条件が合致した価格で約定。インバランス料金：入札量との差分に対するペナルティ。その時間の電力の価値によって決定。例)2022年5月17日 12:30～13:00 【実績値】スポット市場価格： 22.80 [円/kWh] 【実績値】インバランス料金： 53.58 [円/kWh] 入札量の1 kWhに対し、予想より多く発電したので 2 kWh売電する場合… 売電収入インバランス料金利益＝ 22.80 [円/kWh]×2 [kWh] － 53.58[円/kWh]×|2－1|[kWh] ＝ -7.98 円収益のためには単に多く電力を売ればいいわけではなく、インバランスを抑制することが必要 2

Objective • 強化学習を用いて実際の予測データから運用計画を策定する先行研究がない • 1軒の需要家の収益を向上できれば、統合して複数の需要家の収益を向上可能  1軒の需要家で予測誤差を考慮した充放電計画を予測から策定、収益を向上させる 3

Simulation model  需要家のシステム構成市販のPVと蓄電池を保有する需要家を想定・電力需要や他の機器状態には依存しない・発電した電力は蓄電池への充放電を介して売電 ※PCS(Power Conditioning Subsystem) 発電した電力の制御や機器の運転制御を行う装置 4

Simulation model  プログラム構成 2つの手法を検討・前日計画：スポット市場入札締め切り前に予測と充放電計画を策定・30分前計画：最新の気象予測データを用いて、実需給直前にも再度予測と策定を行う予測・計画動作評価予測・計画動作評価 30分前実需給時間帯前日計画予測・計画 30分前計画前日10:00 当日0:00 入札締め切り 5 当日24:00

Simulation model  取引フロースポット市場を想定実際のPV発電量(＝売電量) 入札量とのインバランス 6 利益損失

Simulation model  充放電計画 (深層強化学習モデル) ※SoC(State of Charge)：充電残量エージェントは報酬*を最大化するよう繰り返し学習を行う *この報酬は売電による収入ではなく、学習時に設計するもの 7

Simulation model  深層強化学習モデルの報酬 𝑹𝑹𝟏𝟏 , 𝑹𝑹𝟐𝟐 𝑹𝑹𝟑𝟑 ・放電に対する正の報酬 ①放電時(SoC＞放電量)のとき・実現不可能な行動に対する負の報酬 𝑅𝑅3,𝑘𝑘 = 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑘𝑘 × 𝑇𝑇 × ②発電量以上に充電するとき・SoC以上に放電するとき 𝑅𝑅1,𝑘𝑘 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 −(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑘𝑘 ) × 𝑇𝑇 × =� 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑘𝑘 − 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑘𝑘 × 𝑇𝑇 × 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 ③SoCが100%を超えるとき 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑅𝑅2,𝑘𝑘 = −𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑦𝑦𝑘𝑘 × 𝑇𝑇 × 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑒𝑒𝑘𝑘 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑒𝑒𝑘𝑘 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑒𝑒𝑘𝑘 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑦𝑦𝑘𝑘 𝑘𝑘 𝑇𝑇 この3つを1日を通して合計したもので評価 8 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑘𝑘 充電電力[kW] 放電電力[kW] 電力価格予測[円/kWh] 蓄電池の残電力量[kWh] 時間(1～48) 1コマあたりの時間(0.5時間)

10.

Simulation condition • 場所：産総研に所在する実験設備を想定 • 時間解像度：30分データ取得 30分前計画実需給直前に動作 • 入力データ  学習データ：2022年度の気象・電力価格実績  入力データ：実需給日の直近の気象予測データ(1日分) 予測計画動作 • 1日分の結果を出力評価  ＰＶ出力予測、電力価格予測、充放電計画、収益の評価を出力  収益は蓄電池を用いない場合をベースとして前日計画、30分前計画の結果を比較 9

11.

Simulation result 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 30 95%予測上限 95%予測下限実測値 25 価格[円/kWh] PV出力[kW]  PV出力予測・電力価格予測(結果はすべて2023/1/31) 20 15 スポット市場価格(予測) スポット市場価格(実際) インバランス料金(予測) インバランス料金(実際) 10 5 0 3 6 9 12 時間[時] 15 18 0 21 PV 出力予測 0 3 6 9 12 時間[時] 15 電力価格予測 • PV出力予測はほぼすべてで95％の予測区間に収まった(48コマ中2コマ外れ) • 電力価格予測は精度を考慮していない(RMSE：3.1[円/kWh], 6.4[円/kWh]) 10 18 21

12.

Simulation result  充放電計画と動作結果(前日計画) 14 100 90 80 10 70 60 8 6 PV出力(予測) PV出力(実際) スポット市場価格(予測) スポット市場価格(実際) SoC(計画) SoC(実需給) 4 2 0 50 0 3 6 40 SoC[%] 電力価格[円/kWh-30min] PV出力[kW] 12 30 20 10 9 12 時間[時] 15 18 21 0 充放電計画と動作結果 • 電力価格が高くなると予測した17時以降に集中して放電を行うことで収益を高めようと行動 11

13.

Simulation result  充放電計画と動作結果(30分前計画) 100 90 12 80 10 70 8 60 50 6 PV出力(予測) PV出力(実際) スポット市場価格(実際) SoC(計画) SoC(実需給) 4 2 0 0 3 6 9 40 SoC[%] 電力価格[円/kWh-30min] PV出力[kW] 14 30 20 10 12 時間[時] 15 18 21 30％未満で頭打ち 0 充放電計画と動作結果 • 蓄電池を十分に活用しない計画が立案され、収益を高める行動をしているか不明 • 報酬設定がこの計画に不適合、1日の計画(48コマ)のうちの最初の1コマしか用いないことが原因の可能性 12

14.

Simulation result  インバランス量 0.7 インバランス量(前日計画) インバランス量(30分前計画) 電力量[kWh] 0.6 0.5 0.4 0.3 0.2 0.1 0 0 3 6 9 12 時間[時] 15 18 21 入札量に対する各計画のインバランス量 • 前日計画ではインバランスが少ない一方で、30分前計画では多く発生 • インバランスが多いと、ペナルティが増大し収益が悪化する 13

15.

Simulation result  収益 20 収益(ベース) 収益(前日計画) 収入[円] 15 収益(30分前計画) 10 ベース前日 30分前収入 130 142 128 損失 -47 -19 -148 合計 (対ベース) 83 123 (+40) -20 (-103) 5 0 0 損失[円] 1日を通して合計した損益額[JPY] 0 3 6 9 時間[時] 12 15 18 21 -5 -10 損失(ベース) -15 損失(30分前計画) -20 損失(前日計画) 各時間ごとの収益と損失 • ベースと比較して、前日計画は改善、30分前計画は低下 • インバランスの多さが収益に影響を及ぼした 14

16.

Simulation result  収益(連続1週間) 4000 3000 2751 3232 1000 2903 2587 金額[円] 金額[円] 995 442 0 -1000 -2000 -3000 ベース前日 30分前 -646 -1756 収入損失 -2460 806 698 579 500 2000 1000 690 220 0 -227 -500 -420 -470 ベース -1000 前日 -1118 -1500 合計夏季(2022/8/8～2022/8/14) 収入損失 30分前合計冬季(2023/1/30～2023/2/5) • 1週間連続して動作した場合も、前日計画では利益が向上(約160％)し、30分前計画は悪化 15

17.

Summary 研究目的 • 1軒の需要家で予測誤差を考慮した充放電計画を予測から策定、収益を向上させる研究手法 • 強化学習を用いて充放電計画を策定する研究結果 • 前日計画では、蓄電池がない場合と比較して160％の収益向上が得られた • 30分前計画では、結果が悪化した。この計画には報酬設計が不適合だったと考えられる今後の課題 • 30分前計画における強化学習モデルの報酬の再検討 • 策定した充放電計画を実際の機器で実現可能か検証 16

18.

ご清聴ありがとうございました

19.

補足資料

20.

Imbalance 19

21.

Imbalance 出典：インバランス料金制度等について電力・ガス取引監視等委員会事務局ネットワーク事業監視課 20

22.

Program 21

23.

Program 22

24.

Timeline 23

25.

Timeline 24

26.

Simulation data データの取得元パラメータデータソース過去の気象データ高層気象台の観測データ(2022年度) 気象予測データ GPVデータ PV出力実績値過去の気象データから自作スポット市場価格 JEPXスポット市場価格データインバランス料金インバランス料金公表サイト 25

27.

PV prediction 先行研究(塚崎ら)ではPV出力予測を決定論的に予測 ⇒ 外れるリスクを考慮できていない山本らの確率論的予測を使用決定論的予測確率論的予測確率論的予測を用いることで、予測が外れるリスクを考慮 26

28.

PV prediction Top 4 feature types extracted for accuracy radiation flux : 0.9969 v-component of wind : 0.0004 temperature : 0.0003 u-component of wind : 0.0003 選択した特徴量の数と平均損失文献 Number of selected features and average loss[2] H. Yamamoto, J. Kondoh, and D. Kodaira, “Assessing the Impact of Features on Probabilistic Modeling of Photovoltaic Power Generation,” Energies, vol. 15, no. 15, p. 5337, Jul. 2022. 27

29.

LSTＭ Long Short Term Memory 時系列の予測に優れている(気象、株価 etc…) セル状態(𝐶𝐶𝑡𝑡−1 )に過去の学習に重要なデータを長期記憶として保存逆に必要のないデータを忘却ゲート(𝑓𝑓)にて消去メモリーセル(𝑔𝑔)には新たにセル状態に加えるデータの候補が入り入力ゲート(𝑖𝑖)でメモリーセルにあるデータの内に加えるデータを選出最終的には新しいセル状態(𝐶𝐶𝑡𝑡 )に更新する 28

30.

PPO Proximal Policy Optimization Trust Region Policy Optimization(TRPO)を改良して、実装しやすくした手法・メリット：シンプル、効率性・課題：局所的な最適解に陥りやすい ⇒最良の方策を見つけるよりも、良好な方策を迅速に見つけることが出来る手法文献より、A2CやDDQNといった手法よりも PPOを用いることで利益を最大化できる Zaxxon(シューティングゲーム) https://qiita.com/yuishihara/items/8252af064c2b316d782b ・文献 B. Huang and J. Wang, “Deep-Reinforcement-Learning-Based Capacity Scheduling for PV-Battery Storage System,” IEEE Trans Smart Grid, vol. 12, no. 3, pp. 2272–2283, May 2021, doi: 10.1109/TSG.2020.3047890. 29

https://qiita.com/yuishihara/items/8252af064c2b316d782b

31.

Simulation model  深層強化学習モデル 30

32.

Result 1week(summer) 日付日照時間ベースモード収入損失前日スケジュール合計収入損失合計 30分前スケジュール収入損失合計 8/8 10.5 450.31 486.21 -35.90 579.33 48.94 530.39 485.01 364.46 120.55 8/9 11.8 725.68 135.56 590.11 853.91 31.49 822.42 768.17 510.02 258.15 8/10 12.4 606.26 272.34 333.92 690.45 52.67 637.77 625.12 455.60 169.52 8/11 11 337.25 132.48 204.77 375.51 107.72 267.80 363.22 341.61 21.60 8/12 6.9 365.06 148.20 216.87 469.05 26.52 8/13 1.2 109.13 299.80 -190.67 110.92 141.01 -30.09 111.28 202.04 -90.76 8/14 4.8 157.40 281.10 -123.70 153.30 180.73 -27.43 158.64 221.81 -63.17 合計増減率 83.25 385.79 391.47 364.95 2751.09 1755.69 995.40 3232.46 645.82 2586.64 2902.90 2460.49 442.41 17.50 31 -63.22 159.86 5.52 40.14 -55.55

33.

Result 1week(winter) 30分前スケジュール収入損失合計日付日照時間 1/30 9.4 121.87 64.09 57.78 151.13 28.27 122.86 133.98 199.97 -65.99 1/31 8.9 130.20 47.02 83.18 141.65 18.64 123.01 128.25 147.76 -19.51 2/1 9.6 118.35 141.30 -22.95 123.64 54.12 69.52 118.59 260.62 -142.03 2/2 6.7 102.94 95.52 7.42 116.05 65.55 50.49 107.47 184.08 -76.62 2/3 0.4 72.06 45.13 26.93 79.05 15.15 63.91 69.97 116.95 -46.98 2/4 3.7 77.54 44.62 32.92 96.79 29.63 67.17 76.43 113.02 -36.59 2/5 9.4 67.43 32.34 35.09 97.80 15.44 82.36 63.35 95.20 合計増減率ベースモード収入損失合計前日スケジュール収入損失合計 -31.85 690.39 470.02 220.37 806.11 226.80 579.32 698.03 1117.60 -419.57 16.76 32 -51.75 162.89 1.11 137.78 -290.39

34.

Result 1week 一週間のスポット市場価格の推移 90 80 価格[円/kWh] 70 冬夏 60 50 40 30 20 10 0 0 3 6 9 12 15 18 時間[時] もともと夏の方がスポット市場価格が高い 33 21