従来の強化学習では収益の期待値を推定していくが、分布型強化学習は収益の確率分布を推定する。
(強化学習において収益(return)とは現在から将来にわたって受け取る報酬(reward)の合計のことである。)
2017年のICMLではDeepMindから分布型強化学習のアルゴリズムであるC51が発表され、
さらに2020年にはNature誌においてドーパミンニューロンが確率分布で予測報酬をコードしていることが示された。
論文:https://www.nature.com/articles/s41586-019-1924-6

分布型強化学習では分布型ベルマン方程式により学習をするが、
ベルマンエラーがスカラー値ではなくC51ではカテゴリカル分布間の距離となる。
そこでKLダイバージェンス(カテゴリカルクロスエントロピー)を最小化するように学習する。
参考:https://horomary.hatenablog.com/entry/2021/01/07/000529

状態行動価値の確率分布を推定するという点でベイズ強化学習も似たところがあり、
どちらも実用面ではリスク考慮型強化学習などの意味合いがあるようだ。
参考:https://brandinho.github.io/bayesian-perspective-q-learning/