CIT自律ロボット研究室

千葉工業大学 先進工学部 未来ロボティクス学科 上田隆一研究室

お知らせ: 3年生の研究室配属用の資料をアップしています。 / 

確率ロボティクス2016第8回

Tue Nov 15 11:06:04 JST 2016 (modified: Fri Nov 29 17:22:47 JST 2019)
views: 46, keywords:

  このエントリーをはてなブックマークに追加 
   

確率ロボティクス

第8回

上田 隆一

2016年11月16日\@千葉工業大学

本日の内容

  • 有限MDPの問題を解きます

問題1

  • エージェントが図のようなグラフの環境を移動
  • エージェントは辺で結ばれたノードに1秒で移動可能
  • Gと書いてあるノードはゴール
  • 各ノードに対して価値反復で価値を求めてみましょう。
    • 価値はゴールまでの秒数

questions1

問題2

  • 今度は、灰色のノードに水たまりがあるとします。
  • 水たまりに入るペナルティーを[latex]R[/latex]とします。
  • 以下の場合の各状態の価値を求めましょう。
    • [latex]R = 1[s][/latex]
    • [latex]R = 10[s][/latex]

questions2

問題3

  • 今度は、移動するエッジを選んでノードを移る時に、他のエッジに間違って入ることがある場合を考えましょう。
  • 間違える確率: 移動するエッジ以外のエッジがある場合、それらのエッジにそれぞれ10%の確率で入る
    • 例: 4つエッジがあるノードの場合、正しく移動できる確率は70%、あとは10%ずつ間違えたエッジに入る

questions1

問題4

  • 今度は水たまりがある時について、問題3の遷移条件で解いてみましょう
  • 水たまりのペナルティー
    • [latex]R = 1[s][/latex]
    • [latex]R = 10[s][/latex]
    • [latex]R = 100[s][/latex]
questions2

問題5

  • 問題4の設定で、グラフにゴールを一つ加えます。
  • 上下二つのゴールのうち、下のゴールの価値や水たまりのペナルティーの値を変えて価値関数を解いてみましょう。

questions3