CartPoleでQ学習(Q-learning)を実装・解説【Phythonで強化学習:第1回】

強化学習で倒立振子(棒を立て続ける)制御を実現する方法を実装・解説します。

本回ではQ学習(Q-learning)を使用します。

本記事では最初に倒立振子でやりたいことを説明し、その後、強化学習とQ学習について解説を行います。

最後に実装コードを示し、コードを解説します。

 倒立振子(cartPole)とは

まずは動画をごらんください。

小学生のころ、ほうきを手のひらで立てて遊んだと思いますが、あれです。

一般に倒立振子問題と呼びます。

これを実行する環境が、Open AI GymというライブラリのCartPoleとして用意されています

今回はこのcartPoleを使用して、強化学習を勉強します。

Open AI Gymを利用するために、

を実行しておきます(Ubuntu環境)。

やりたいこと

実装に移る前に、そもそもやりたいことを整理します。

まず倒立振子の状態(State)は

  • カート位置 -2.4~2.4
  • カート速度 -3.0~3.0
  • 棒の角度  -41.8~41.8
  • 棒の角速度 -2.0~2.0

の4変数で表されます。

棒が20.9度以上傾いたり、カート位置が±2.4以上移動すると失敗となります。

そして実際にとることができる行動(Action)は

  • カートを右に押す
  • カートを左に押す

の2通りです。

カートに対して右か左に加速度を与える操作を行います。

状態sに応じて、うまく行動aをとり、棒を立て続けることが目的です。

今回の場合200stepの間、立て続ければ成功です。

つまり

a_t=A(s_t) ※時刻tにおいて状態sのときに最適な行動aを返す関数A

を求めることがゴールとなります。

強化学習

前節で紹介したような問題を解くことを「強化学習」と呼びます。

強化学習は「教師あり学習」とも「教師なし学習」とも異なります。

もし各状態sでどの行動aをすれば良いよって教えてくれる正解データがあれば教師あり学習です。

ですが、そのような正解データはありません。

では教師なし学習かというと少し違います。

というのも、何施行か繰り返していて、棒が200step立ち続ければそれは成功であり、ある意味教師データのような存在を生み出すことができます。

このように、逐一の行動の正解は与えられていないが、最終的なゴールが与えれれていて、それを実現するための方法を学習する枠組みを強化学習と呼びます。

強化学習の解き方

強化学習で最適な行動を学習するには様々な手法があります。

本記事では最も代表的なQ学習(Q-learning)を解説・実装します。

Q学習では、各状態sで最適な行動aを与える関数A(s)を求める代わりに、各状態sで各行動aでこの先どの程度の報酬がトータルでもらえるのかR(t)で示す

行動価値関数 Q(s_t,a_t)=R(t)

を求めます。

R(t)が分かりにくいですが、これは時刻tで状態がs_tであった場合に、行動a_tをとった場合に、時刻t+1でもらえるであろう報酬r_{t+1}、そしてその後ももらえるであろう、r_{t+2}+・・・の合計を示す関数です。

※今は割引率は無視

実際には2次元の表で表され、行方向が様々な状態s、列方向がとりうる行動aになり、各マスにそれぞれの場合の報酬が格納されます。

そして、このQ関数で報酬が最大の行動a_tを取り続けるという作戦で、棒を立て続けます。

ここで「各状態」と「報酬」という2つの言葉がでてきました。

まず「各状態」から説明します。

今回の倒立振子で状態は、カートの位置など、4変数で表され、各変数は連続値です。

そのため、表を作るために離散化します。

本記事では各変数を6分割し、6^4の1296状態を定義します。

よってQ関数は[1296×2]の行列(表)で表されます。

(2は選択可能な行動で、右に押すか左に押すかを表します)

なお、Q関数で連続値を扱えるように、表ではなく、きちんと関数で表す方法もあります。

またQ関数をディープラーニング・ニューラルネットワークで示すDQN(Deep Q-Network)と呼ばれる方法もあります。

今回は簡単な表形式のQ関数を使用します。

つぎに「報酬」について説明します。

強化学習ではこの「報酬」が非常に重要な要素となっています。

強化学習は報酬を最大化する方向へQ関数を学習します。

そのため、「200ステップ立ち続ける」、もしくは「各ステップで立っている」と報酬を与えます。

一方で、こけたりすると、マイナスの報酬(罰則)を与えます。

この報酬が1試行(200step)を通して、最大化できるQ関数を学習します。

では実際にどうQ関数を学習するか説明します。

Q関数の学習方法

Q関数の学習方法はSARSAやモンテカルロ法、Q学習などがあります。

脳の研究では実際の生物の学習方法が、SARSAと類似しているという報告などもあります。

本記事ではQ学習を説明します。

例えばt=99で、a_99の行動をとり、t=100でこけたとします。

するとt=99での行動a_99はきっと悪かったから、Q(s_99, a_99)には悪い報酬を格納します。

※s_99は1296状態のどれか、a_99は右か左かに押す行動を示します。

ですが、t=99だけでなく、t=98での行動や状態もきっと悪かったと思われます。

t=98までは良かったのに、t=99での1回の行動でこけたとは思えません。

つまりQ(s_98, a_98)にも、こけたときの罰則(マイナスの報酬)を与えたいところです。

※t=98だけでなく、t=97以前にも

とはいえ、t=98や、それ以前の、t=97のQ(s_97, a_97)の気持ちになると、

「いや、ちょっと待てよ。

俺も悪いかもしれないよ。

でもQ(99)ほど俺が悪いなんて、ひどくね。

最後に倒したのはQ(99)であって、俺の後はまだ棒は立ってたわけだし・・・

ちょっとくらい勘弁してくれよ」

って気持ちです。

そこで、勘弁してあげるために、割引率γという変数を用意してあげます。

γは1より小さい値で、未来(t=99)での罰則がt=97までつながるときに、罰則を割り引いて与えます。

t=97の場合、罰則がγ^2だけ小さくなり、勘弁してあげます。

ここまで罰則(マイナスの報酬)的な書き方で書いてきましたが、プラスの報酬でも同じです。

※ちなみに脳科学では割引率γはセロトニンという神経修飾物質が関わっているのではという説があります。

このセロトニンが少ない人は極端に未来の報酬や罰則を割り引いて考えるため、長期的な計画が苦手で目先の利益で行動が決定されてしまうという報告があります。

以上の気持ちを実装してあげると、Q関数の学習は

Q(s_t, a_t) ← Q(s_t, a_t) + α(r_{t}+γMAX{Q(s_{t+1}, a_{t+1})} – Q(s_t, a_t))

と表されます。

MAX{Q(s_{t+1}, a_{t+1})}は、次の時間t+1から先にもらえる報酬合計の最大値です。

αは学習率です。更新の大きさを決定します。

(αは記憶の更新のようなものであり、人間の脳では、アセチルコリンと関係があるのではと言われています)

この式が言いたいことは、

時刻tで状態s_tであったときに、行動a_tを取ったときにその後得られる報酬の合計R(t)を与える関数Q(s_t, a_t)は、実際に時刻tでもらった報酬r_{t}と、そのさきにもらえるであろう報酬R(t+1)の最大値であるMAX{Q(s_{t+1}, a_{t+1})}に割引率γを掛けた値、の和で表される。

その値に近づくように少しずつ更新しよう♪

ってことです。

とはいえ、ここで問題が生じます。

時刻tで状態s_tであった場合に、いつもQ(t)が最大となるa_tを選択していては、一部のQ関数しか学習できない問題です。

これを、「探索と利用のジレンマ」と呼びます。

探索と利用のジレンマの解決策

「探索と利用のジレンマ」を解決する方法のひとつがε-greedy法です。

これは確率ε以下の場合はランダムなa_tを選択し、ε以上のときはQ(t)を最大化するa_tを利用するという方法です。

ただし、ずっと探索しているといつまでも行動が安定しないので、εはε_0*(1/episode)と表し、試行回数が増えるにしたがい、探索行動が減るようにするのが一般的です。

なお、(1-ε)を逆温度βと呼びます。

またこの逆温度βは脳ではノルアドレナリンによってコントロールされているのかという説があります。

以上の要素を踏まえて実装を行います。

実装には以下のサイトを参考にし、改変を加えています。

これさえ読めばすぐに理解できる強化学習の導入と実践

Q学習によるCartPoleの実装例

[0] 最初に使用するライブラリをインポートします。

[1] Q関数を状態変数を離散化した表・テーブルで表現します。

cartPoleで観測した状態変数を離散値に変換するメソッドを定義します。

[2] 次の状態s(t+1)で右に動かすべきか、左に動かすべきか、Q関数の大きい方を選びます。

ただし、徐々に最適行動のみをとる、ε-greedy法にします。

基本的には報酬が最大となる行動を選択しますが、ときおりランダムな行動をとります。

[3] Q関数を更新するメソッドを定義します。

[4] ここからメインのプログラムが開始します。

はじめに各パラメータを定義します。

また状態を離散値にして、[1296×2]の行列(表)形式のQ関数を作成します。

[5] メインルーチンです。

試行数のfor文と、各時間ステップのfor文のネストになっています。

状態s(t)でa(t)を実行し、観測状態s(t+1)を求めます。

そのときの棒が立っているかどうかで報酬r(t)を決定します。

報酬は、195ステップ立たずに終了したら-200の罰則の報酬を与えます。

こけずに立っていたら、+1の報酬を与えます。

その後、Q関数を更新し、次の行動a(t+1)を求め、状態s(t)を更新します。

最後は各ステップごとの情報と、試行終わりの情報を出力し、学習終了条件を満たしているか判定します。

以上のコードを実行すると、だいたい800試行で学習が収束し、棒がうまく立ちます。

上記コードを実行した結果をgifで示します。

40度以上傾くと終了します。

最初の10試行ではグダグダです。

100試行たつとちょっと、立てるようになります。

でもどんどん移動してこけます。

かわいいです。

そして800試行ほどで学習が終了し、200stepの間立ち続けることができました。

ここで、状態を各変数につき6分割で良いの?という疑問がわきます。

100分割くらいすればより細かい制御ができるかもしれませんが、学習には時間がかかります。

そして何より、現在time stepが固定されているので時間方向の分割性能を変えないで、状態ばかり細かく分割しても意味がありません。

そのため、4~6分割で十分となります。

最後に再度コードを全部掲載します。

以上、強化学習のQ学習を用いて倒立振子(cartPole)を制御する方法を紹介しました。

次回は、Q関数をディープラーニングで学習するDQNを紹介します。

CartPoleでDQN(deep Q-learning)、DDQNを実装・解説【Phythonで強化学習:第2回】
Deeplearningを用いた強化学習手法であるDQNとDDQNを実装・解説します。学習対象としては、棒を...