キーワード索引

強化学習

  • P1-57
    上野 誠弥 (東京電機大学 理工学部)
    高橋 達二 (東京電機大学)
    甲野 佑 (東京電機大学 理工学部)
    強化学習の応用例であるバンディット問題を解くアルゴリズムでは,事前分布など事前知識を与えることがある.その中でも人の試行錯誤の一種である満足化を再現した Risk-sensitive Satisficing (RS) では,最適な目標値を事前知識として与えた場合に高い性能が確認されていた.本研究では最適な目標値が未知の実数値になりうる場合でも,エージェントがオンライン情報から自律的に推定する方法を検討した.