AlphaGoや自動運転など、近年強化学習・深層強化学習の活用事例が徐々に増えつつあり、今後の更なる発展が期待されています。本講座では、強化学習の基本的な概念の学習とプログラムの実装を通じて、強化学習の応用例や可能性を探っていきます。
・AI開発の担当社員およびその実務管理者
・WEBサイトやWEBアプリ、スマホアプリにAI機能を実装する開発担当者
・家電や自動車等各種機器にAI機能を実装する開発担当者
本講義では、機械学習における強化学習の立ち位置や、強化学習に関する基本概念を整理します。覚えることが少し多いですが、後の講義でも再度取り上げる概念がほとんどなので、まずは強化学習の概観を捉えていただければと思います。
本講義では、モデルベースの強化学習手法である MCTs について解説します。また、MCTs を用いたリバーシのプレイヤーエージェントを実装します。
本講義では、TD学習、Q学習、SARSAといった強化学習の基礎的なアルゴリズムについて解説し、迷路問題に適用します。
マーケティング業界で良く用いられているバンディットアルゴリズムは、強化学習アルゴリズムの一種とみなせます。本講義では、バンディットアルゴリズムを実装し、その挙動を確認します。
本講義では、強化学習のもう一つの手法である、方策勾配法を紹介します。また、方策勾配法のもっともシンプルなアルゴリズムである REINFORCEアルゴリズムを実装し、第1講で紹介した CartPole v1 環境に適用します。
強化学習を実問題に応用するには、シミュレーターの作成が不可欠です。本講座の締めとなるこの講義では、離散イベントシミュレーターを実装した上で、最新の強化学習アルゴリズムの適用にチャレンジします。
本講義では、方策勾配に基づくアルゴリズムの1つである Actor-Critic 法と呼ばれる手法を紹介し、その応用例として組合せ最適化問題として有名な巡回セールスマン問題に挑戦します。