AI Technology Community
tianjing2020
2021-11-01 22:37:25
強化学習のscore function
score functionの定義とは、score functionが最大対数尤度関数の中で対数尤度関数の勾配を0にする勾配を求めるものであるということです。
つまり、最大尤度問題を解くことはscore functionを解くことになります。
2、さらにパラメータについて微分すると、Fisher Informationが得られます。FIMはSFの負の導関数です。
3、SFの期待値は0です。
この性質は、ベースラインのある方策勾配に利用することができます。
41
item of content
人工知能に関する知識を共有します。これにはAIアルゴリズム、応用例、データ、モデルなどに関する情報が含まれます。
- 479hits
- 0replay
-
0like
- collect
- send report