強化学習の基礎と実装

この講座でできること

AlphaGoや自動運転など、近年強化学習・深層強化学習の活用事例が徐々に増えつつあり、今後の更なる発展が期待されています。本講座では、強化学習の基本的な概念の学習とプログラムの実装を通じて、強化学習の応用例や可能性を探っていきます。

対象者

AI開発の担当社員およびその実務管理者

WEBサイトやWEBアプリ、スマホアプリにAI機能を実装する開発担当者

家電や自動車等各種機器にAI機能を実装する開発担当者

学習内容

第1講:強化学習の概要

本講義では、機械学習における強化学習の立ち位置や、強化学習に関する基本概念を整理します。覚えることが少し多いですが、後の講義でも再度取り上げる概念がほとんどなので、まずは強化学習の概観を捉えていただければと思います。

第5講:モデルベースの手法によるリバーシプレイヤーの作成

本講義では、モデルベースの強化学習手法である MCTs について解説します。また、MCTs を用いたリバーシのプレイヤーエージェントを実装します。

第2講:Q学習法で迷路を解く

本講義では、TD学習、Q学習、SARSAといった強化学習の基礎的なアルゴリズムについて解説し、迷路問題に適用します。

第6講:レコメンドとバンディットアルゴリズム

マーケティング業界で良く用いられているバンディットアルゴリズムは、強化学習アルゴリズムの一種とみなせます。本講義では、バンディットアルゴリズムを実装し、その挙動を確認します。

第3講:方策勾配法で倒立振子を制御する

本講義では、強化学習のもう一つの手法である、方策勾配法を紹介します。また、方策勾配法のもっともシンプルなアルゴリズムである REINFORCEアルゴリズムを実装し、第1講で紹介した CartPole v1 環境に適用します。

第7講:離散シミュレーターとの連携による実問題への応用

強化学習を実問題に応用するには、シミュレーターの作成が不可欠です。本講座の締めとなるこの講義では、離散イベントシミュレーターを実装した上で、最新の強化学習アルゴリズムの適用にチャレンジします。

第4講:Actor-Critic法で 巡回セールスマン問題に挑む

本講義では、方策勾配に基づくアルゴリズムの1つである Actor-Critic 法と呼ばれる手法を紹介し、その応用例として組合せ最適化問題として有名な巡回セールスマン問題に挑戦します。

講師の紹介

太田満久

太田満久

日本ディープラーニング協会人材育成委員

2010年、分析の会社ブレインパッドにソフトウェア開発エンジニアとして新卒入社。数理的なバックグラウンドを活かし、自然言語処理エンジンやレコメンドアルゴリズムの開発を担当。最新技術の調査・検証やマネジメントを担当した後、Chief Data Technology Officer として会社全体の技術リードを担当。 Google Developers Expert (Machine Learning) として多くの勉強会で登壇。TensorFlow UserGroup のオーガナイザとして、機械学習関連のイベントを定期的に開催。京都大学博士(理学)。

<主な著書>

『失敗しない データ分析・AIのビジネス導入 プロジェクト進行から組織づくりまで』(森北出版 2018年)
『現場で使える!TensorFlow開発入門』(翔泳社 2018年)
『実践 Deep Learning』監訳(オライリージャパン 2018年)
『コマンドラインではじめるデータサイエンス』監訳(オライリージャパン 2015年)
『TensorFlow 活用ガイド』(技術評論社 2018年)