TOP
プログラム
論文集
申し込み
アクセス
問い合わせ
キーワード索引
強化学習
P1
-57
正規分布報酬の Satisficing bandit における目標水準の最適調整
上野 誠弥
(東京電機大学 理工学部)
高橋 達二
(東京電機大学)
甲野 佑
(東京電機大学 理工学部)
強化学習の応用例であるバンディット問題を解くアルゴリズムでは,事前分布など事前知識を与えることがある.その中でも人の試行錯誤の一種である満足化を再現した Risk-sensitive Satisficing (RS) では,最適な目標値を事前知識として与えた場合に高い性能が確認されていた.本研究では最適な目標値が未知の実数値になりうる場合でも,エージェントがオンライン情報から自律的に推定する方法を検討した.
Menu
論文集全体
日程
9月12日 (金)
9月13日 (土)
9月14日 (日)
著者・企画関係者
研究分野
キーワード索引
協賛企業(先着順)