• 意味
  • 例文
  • 慣用句
  • 画像

人工知能における、コンピューターによる機械学習の一種。解決すべき課題に対し、より正しい結果を得るため、試行錯誤を通じて自ら得られる報酬が最大化するよう学習を進める。報酬は、確率的にある程度遅れてもたらされる。学習速度が遅く、適切なアルゴリズムの設計が難しいが、現実世界に近い不確実性のある環境や条件の下で、最適な方策を自ら獲得する特長をもつ。→教師あり学習