留学文书自荐书代写
留学硕士论文代写
SCI期刊ISTP期刊EI论文代写
留学申请推荐信个人陈述代写
留学研究计划书代写
留学论文作业代写修改
英语 English
日语 日本語
韩语한국의
法语 Français
德语 Deutsch
俄语 Pусский
西语 Español
意语 Italiano
·英语论文 ·日语论文
·韩语论文 ·德语论文
·法语论文 ·俄语论文

名称:智尚工作室
电话:0760-86388801
传真:0760-85885119
地址:广东中山市学院路1号
网址:www.zsfy.org
E-Mail:cjpdd@vip.163.com

商务QQ:875870576
微信二维码

业务联系
隐藏文章
エージェントの行動様式の学習法
添加时间: 2011-4-8 9:50:25 来源: 作者: 点击数:5844

1.   3.1 強化学習

 機械学習の1つである強化学習は, 報酬を利用して方策を最適化することで, エージェントを環境に適応させることを目的とする.ここでは強化学習においてエージェントが得た知識を利用して, 方策を改善する手法を説明する.

 強化学習(Reinforcement Learning)は動物の適応的な行動獲得を工学的観点からモデル化した手法である.強化学習の特徴は最適な行動を人間がエージェント(学習主体(ex.ロボット))に教えるのではなく, エージェント自身が環境との試行錯誤を通して得た行動の結果から, 自律的に意思決定の方策(policies)をより良いものへと構築していく学習手法であるという点にある.より具体的には, 目的を達成した際にスカラー値の報酬を与えることによってのみ学習を行う.強化学習では, エージェントは環境の状態(state)を観測し, それに応じて行動 (action)を選択する.この際, エージェントの選択した行動によって報酬 (reward)が与えられる.また, エージェントは状態, もしくは状態と行動の組に対する評価値(value)を持っており, 行動はこれらの評価値によって決定される. (e.g.,  次の状態の評価値が最大になるように行動を選択する.又は, 評価値を気にせず探索的な行動を選択する.) 評価値はその状態における現在から未来にわたって得られる報酬の割引かれた累積和を示し, エージェントは評価値を最大化することを目的とする.その結果, エージェントは自律的に意志決定の方策 (policy) をより良いものへと構築していくことができる.

環境


3.1 強化学習の枠組

強化学習の枠組を3.1に示しているように, エージェントは, 環境をセンサによって知覚し, それに対して自身の取る行動を選択し, 自律的に行動していくことができる知的システムで, 通常環境に対して行動を選ぶための行動規範を内部に持っている。この行動規範を強化学習によって, 探査的な行動を行い, 目的に沿った行動をした時に報酬を与えられるものとし, これの報酬を使いながら, 環境と行動の相互作用を観測しながら更新し, より複雑な環境に対しても, 目的にあった行動をするように, 行動規範を改善していて, 自身の振る舞いを改善していくことができる。

次に強化学習の手法のうち, 今回実験に使った方法である, TD制御とTD制御の2つのアルゴリズム, SarsaQ-learning)について説明し, これらのアルゴリズムの特徴, 利点, 欠点について紹介する。

 まず, TD制御(時間的差分学習;Temporal Difference Learning), 環境のダイナミクスのモデルを用いずに, 経験から状態stに対する行動価値関数V(st)を直接学習することができ, 最終結果を待たずに, 他の推定値の学習結果を一部利用し, 推定値を更新する予測法で, 時刻t+1で直ちに目標値を作り, 観測した報酬r(t+1)と推定量V(St+1)を使って適切な更新を行う。最も単純なTD法はTD(0)と呼ばれ, 以下のようになる。

          V(st)    V(st)+α[rt+1+γV(st+1)-V(st)]       (3.1)

TD更新は, rt+1+γV(st+1)を目標とする。そして, 利点としては, 以下のようになる。

 ・環境モデル;つまり報酬と次の状態の確率分布を必要としない。

・オンライン手法として完全な漸進型の手続きに実装できること。

次にTD(0)でのSarsaQ-learningについて説明する。

 Sarsa, 価値の差から学習するという意味において強化学習の中心となっている考え方である。Sarsa, 環境のモデル(遷移確率と報酬分布) を必要とせず, 相互作用によって得た経験(experience) から直接学習ができる.経験とは, 環境との1 回の相互作用から得られる状態, 行動, 報酬, 次状態の4 つ組(st,  at,  rt+1,  st+1) である。Sarsaは与えられた方策πの価値関数Vπを推定するためのアルゴリズムで, 方策評価の方法によって, 最適価値関数Vを求める方策改善である。本章では, 方策評価に限って説明する。Sarsa, 環境のモデルが分からないため, エージェントは実際に環境と相互作用してみる必要がある.時刻t における環境との1 回の相互作用から得られる経験を用いて, 現在の状態St の価値V(St) を以下の式によって更新する。

V(st) V(st) + αδt               (3.2)

δt = rt+1 +γV(st+1) -V(st)             (3.3)

αは学習率と呼ばれるパラメータで, (0, 1)の間の実数である。式(3.2) , TD 誤差(TD-error) と呼ばれ, 次状態の割引価値に報酬を上乗せした値から現在の価値を差し引いた値である。次の表にSarsaのアルゴリズムを掲載する。


3-1  Sarsaアルゴリズム

       V(s) を任意に初期化し, π を評価対象の方策に初期化する

       各エピソード1 に対して繰り返し:

1.1                       s を初期化

1.2                       エピソードの各ステップに対して繰り返し:

3.1.1                           a s に対してπ で与えられる行動a を取り2), 報酬r と次状態s を観察す

          

V(s) V(s) + α[r + γV(s) − V(s)]

s ← s.

3.1.2                            s が終端状態3)ならば繰り返しを終了

注:  1) 学習の初期状態から終端状態までをエピソードという.

2) ここで, greedy な行動選択を取れば方策改善が行われ, 最適価値関数V∗ に収束する.

3) 終端状態とは, エージェントに与えたタスクが達成された状態である

Sarsaの特徴をまとめると以下のようになる。

・ 環境のモデル(遷移関数と報酬分布) を必要とせず, 実際に相互作用した経験から学習が可能である。

・ オンライン手法として漸進型の手続きで実装できる。すなわち, 経験を得るにしたがって状態が正しく評価される。また, 方策改善を行えば行動も改良されていく。

 もう1つのQ-learning, Sarsaをベースにしたアルゴリズムである。Sarsaと同じく環境のモデルを必要とせず, 経験から学習ができる。Sarsaと異なるのは, 状態価値V(s)ではなく,  行動価値Q(s,  a)の更新を行う点である。また, 方策評価とともに方策改善も更新式に明示的に含まれているため最適価値関数に収束する。行動価値Q(s,  a) とは, 方策πの元で状態s において行動a を取ったときの価値で, その後に方策πに従った期待報酬として, 次のように定義される.

Qπ(s, a) =Eπ{Rt|st = s, at = a}=Eπ{∞ k=0γk rt+k+1|st = s, at = a}         (3.4)

ここでは状態価値V(s) と異なり, 各状態で取る行動を含めて価値を評価する。Q 学習もSarsa同じく経験から学習する.時刻t における環境との1 回の相互作用から得られる経験を用いて, 現在の状態st で行動at を取ったときの行動価値Q(st,  at) を以下の式によって更新する.

Q(st,  at)Q(st,  at) +α[rt+1 +γmaxaQ(st+1, a)Q(st,  at)]           (3.5)

更新規則はSarsaと似ているが, 次状態st+1において, 最大の行動価値を持つ行動aを選択している点が異なっている.これは, 方策改善を表しており, 更新規則に明示的に組み込まれている.

 方策の選択にはmax選択とε-greedy 方策がよく用いられる。Max選択は最大の行動価値を持つ行動arg maxa Q(s,  a) を選択するというものである。一方ε-greedy 方策は確率εでランダムな行動を選択し, それ以外は, 最大の行動価値を持つ行動arg maxa Q(s,  a) を選択するというものである。ε-greedyではε大きさによって, 探索の程度を変化させうることができる。次の表にQ学習のアルゴリズムをまとめる。

3-2 Q-learningのアルゴリズム

(1) Q(s,  a) を任意に初期化

(2) 各エピソードに対して繰り返し:

(2-1) s を初期化

(2-2) エピソードの各ステップに対して繰り返し:

(2-2-1) Q から導かれる方策(例えばQ に対する greedy 方策) を使って, s での行動a を選択する

(2-2-2) 行動a を取り, r, s を観察する

Q(s,  a) ← Q(s,  a) + α[r + γ argmax Q(s,  a) − Q(s,  a)]

s ← s

(2-2-3) s が終端状態ならば繰り返しを終了

Q学習は, 得られた経験に基づいて 更新を繰り返し行うことによって最適価値関数に収束することが証明されている。

Q 学習の特徴をまとめると以下のようになる.

・方策改善を更新式に明示的に含んでいる。

・最適価値関数・最適方策に収束することが保証されている。

・学習が遅く, 大量の相互作用が必要である。

2                                   パラメータに敏感であり, 調整が必要である。

Q学習やSarsaなどのTD手法は適格度トレースと結合して, さらに効率的に学習することの出来そうな一般的手法TD(λ)を得ることが出来る。適格度トレースを用いた手法は1ステップ手法に比べると計算量(計算時間のこと)が多くなるが, その代わりに, 学習速度はかなり速くなる。

 適格度トレースの見方は理論的(前方観測的な見方(forward view))と技法的(後方観測的な見方(backward view))2つの見方がある。そして, 前方観測的な見方のTD (λ)アルゴリズムは, nステップ・バックアップを平均化する方法の1つである。平均にはnステップ分のバックアップすべてが含まれており, その各各はλnー1(0≦λ≦1)に比例して重み付けされる。結果として得られるバックアップはλ収益(λ-return) ( 3.6)と呼ぶ。

        Rλt(1-λ) ∞ n=1λn-1Rn t              (3.6)

その更新は以下式(3.7)のようになる。

    Rλt(1-λ)Σ(T-t-1)n=1λn-1Rnt+λT-t-1R           (3.7)

ここで, Tはエピソードの最終時間ステップである。よって, λ収益アルゴリズムとは,    λ収益を用いてバックアップを実行するアルゴリズムである。従って, 前方観測的な見方は, 訪問した各状態に対して, 将来起こりうるすべての報酬を眺め, 最良の組み合わせ方を決定する見方である。

一方, TD(λ)の後方観測的な見方(技法的), 概念的にも計算上でも, 単純であるという理由から有用である。特に, 前方観測的な見方は実際には直接的に実装可能ではない。

なぜなら, 各ステップにおいて, 何ステップか後に起こることの知識を使うので, 因果関係がわからないからである。後方観測的な見方は, 前方観測的な見方を近似するための, 因果関係のある漸進的メカニズムを提供し, オフラインの場合には正確に近似する。

  TD(λ)の後方観測的な見方においては, 各状態に関連する付加的なメモリ変数が存在し, それが適格度トレースである。時刻tにおける状態sの適格度トレースをet(s)R+(R+は正の実数である)と表す。各ステップにおいて, この適格度トレースはすべての状態に対してγλだけ減哀し, そのステップで訪問された1個の状態の適格度トレースはすべてのs∊Sに対して式(3.8)のように1だけ増加する。この種の適格度トレースを累積トレースと呼ぶ。

      γλet1(s)  (s≠stの時)

et(s)

      γλet1(s)1 (s=stの時)                (3.8)

ここで, γは割引率で, λはトレース減哀パラメータである。累積トレースは, 強化事象が発生したとして, 各状態が学習上の変化を受けることが「適格」であることの度合いをしめしている。ここで, 強化事象は, 時々刻刻の1ステップTD誤差が式3.9である。

δ=γt+1+γV(st+1)V(s)                (3.9

TD(λ)の後方観測的な見方においては, 全体的なTD誤差信号は, 最近訪問した非ゼロトレース信号を持つすべての状態に対して, 比例配分的な更新を生じさせる, つまり, すべてのs∊Sに対して, (3.10)のようになる。

   ΔV(st)=αδet(s)                     (3.10)

よって, TD(λ)の技法的定義が与えられる。そして, オンライン表形式TD(λ)のアルゴリズムは以下のように表される。


3-3 オンライン表形式TD(λ)のアルゴリズム

  1. V(s)を任意に初期化し, すべてのsSに対してe(s)0とする
  2. 各エピソードに対して繰り返し:

(ア)sを初期化

(イ)エピソードの各ステップに対して繰り返し:

       a      sに対してπで与えられる行動aを取り, 報酬rと次状態s’を観測する

     δ=γt+1+γV(st+1)V(s)

        e(s)      e(s)+1

        すべてのsについて:

         V(s)      V(s)+αδe(s)

         e(s)      γλe(s)

        s   s’

(2-2-2) sが終端状態ならば繰り返し終了.

 TD(λ)でのSarsaQ-learningSarsa(λ)Q(λ)と呼ぶ, この2つの手法について説明しよう。Sarsa(λ)考え方は:TD(λ)予測手法を状態ではなく, 状態行動対に対して適用することである。すべてのs, aに対して(3.11)で表示したようになる。

     Qt+1(s, a)=Qt(s, a)+ αδtet(s, a)

ここで,

     δt=rt+1+γQt(st+1, at+1)- Qt(st, at)

であり, すべてのs, aに対して

                     γλet-1(s, a)+1  (s=stかつa=atの時)

     et(s, a)=

                         γλet-1(s, a)  (それ以外の時)            (3.11)

である。Sarsa(λ)も方策オン型のアルゴリズムであり, 現在の方策πに対する行動価値Q(s, a)を近似し, 現在の方策に対する近似された価値に基づいて徐々に方策を改善する。表3-4Sarsa(λ)のアルゴリズムを示しておく。


3-4 テーブル型Sarsa(λ)のアルゴリズム

(1) Q(s, a)を任意に初期化し, すべてのs, aに対して, et(s, a)=0とする

(2) 各エピソードに対して繰り返し:

(2-1)  s, aを初期化

(2-2) エピソードの各ステップに対して繰り返し:

(2-2-1) 行動aを取り, r, s’を観測する

(2-2-2) Qから導かれる方策(例えばεグリーディ)を用いてs’で取る行動a’を選択して以下の更新をおこなう。

δ     r+γQ(s’, a’)- Q(s, a)

e(s, a)      e(s, a)+1

すべてのs, aに対して

         Q(s, a)    Q(s, a)+ αδe(s, a)

e(s, a)    γλe(s, a)

       s      s’  ;  a       a’

(2-2-3) sが終端状態であれば終了.

 Q(λ)適格度トレースとQ学習を組み合わせた手法で, 最初に提案した研究者達の名を取ってそれぞれ, WatkinsQ(λ)PengQ(λ)と呼ぶ。理論的, あるいは前方観測的な見方から見ると, TD(λ)Sarsa(λ)とは異なり, WatkinsQ(λ)はバックアップ中に, エピソードの終わりまでずっと先読みすることはしない。Q(λ)は次の探査的行動のみを先読みする。行動価値の知識に基づき, 最初の探査的であれば, WatkinsQ(λ)はrt+1+γmaxaQt(st+1, a)に向けてQt(st, at)の1ステップ更新を行う。一方, WatkinsQ(λ)の技法的, あるいは後方観測的な見方から見ると, 最初に, すべての状態行動対のトレースはγλの割合で減哀するが, あるいは探査的行動が取られた場合は0に設定される。次に, 現在の状態と行動に対応するトレースは1だけ増加する。全体的な結果は次式(3.12)になる。

           γλet-1(s, a) (Qt-1(st, at)= maxaQt-1(st, a)の時

et(s, a)=I sstI aat+

           0     (それ以外の時)              (3.12)

I xy一致関数(identity-indicator function), x=yならばその値は1, それ以外であれば0である。このアルゴリズムの残りの部分は次のように定義される。

    Qt+1(s, a)=Qt(s, a)+ αδtet(s, a)                  (3.13)

ここで,

    δt=rt+1+γmaxa’Qt(st+1, a’)- Qt(st, at)                (3.14)

である。

 表3-5WatkinsQ(λ)アルゴリズムをまとめて示す。

3-5 WatkinsQ(λ)アルゴリズム

 (1) Q(s, a)を任意に初期化し, すべてのs, aに対してe(s, a)=0とする

 (2) 各エピソードに対して繰り返し:

 (2-1)  s, aを初期化

 (2-2)  エピソードの各ステップに対して繰り返し:

 (2-2-1)  行動aを取り, r, s’を観測する

(2-2-2)  Qから導かれる方策(例えばεグリーディ)を用いて

       s’で取る行動a’を選択する

       a*    argmaxbQ(s’, b)

            (a’の場合と最大値が等しいならば;a*     a’)

          δ     r+γQ(s’, a*)- Q(s, a)

    e(s, a)       e(s, a)+1

    すべてのs, aについて: 

        Q(s, a)   Q(s, a)+ αδe(s, a)

        もしa’=a*ならば, e(s, a)     γλe(s, a)

           それ以外e(s, a)     0

           s       s’  ;  a       a’

  (2-2-3)    sが終端状態であれば繰り返し終了

一方, PengQ(λ), Sarsa(λ)WatkinsQ(λ)の混合型であり, Q 学習とは異なり, 探査的行動とグリーディ行動との間の区別はない, 各要素バックアップは広いステップ数の実際の行動にまたがっているが, 最後の部分で行動群に関する最大化を行って完成する。よって, 要素バックアップは方策オン型でも, オフ型でもない。初期の遷移は方策オン型であるが, 最後の遷移ではグリーディ方策が使われている。結果として, PengQ(λ)の元では, 固定された非グリーディ方策QtQπ(行動価値関数)にもQ*(最適行動価値関数)にも収束しないが, 両者の中間的なものには収束する。


3.2 決定木

決定木とは, 根または中間ノードが条件式, 枝が条件式の答え, 葉ノードがクラスを表すような木構造であり, ある属性を持つ事例がどのクラスに属するかを判断する知識を表現する。クラスとは, ある事例が, どういう集合に属するかを表す。たとえば, クラスには「正しい」と「間違っている」場合を考えよう。「正しい」クラスに属する事例を複数用意する。「間違っている」クラスに属する事例を複数用意する。これらの2種類のクラスに属する複数の事例を決定木学習システムに与えると, 決定木という一種の知識を獲得する。この決定木を利用して, 未知の事例がどのクラスに属するか(正しいか, 間違っているか)を判断する。3.2にその概略を示す。3.2ではクラスは2種類だが, 3種類以上も可能である。

はじめに, 事例をどのように表現するかを考えよう。たとえば事例の例として, 野球のボールや卓球のボールを考えよう。これらの事例には属性がある。たとえば, , , 大きさなどである。属性には, それぞれ取ることができる値がある。色ならば, , , 黒など, 形ならば, , 直方体, 立方体などである。これらを属性値と呼ぶ。事例は, 属性値を列挙した形で持つ。

人間の例を挙げる, 一つ目の属性は, 背の高さである。この属性がとることができる属性値は「高い」「低い」を持つ。二つ目の属性は髪の色であり, 属性値は「うす黒い」, 「赤」, 「ブロンド」を持つ。三つ目の属性は, 目の色であり, 「青い」, 「茶色い」を属性値として持つ。

3.2 2種類のクラス

以下にまとめる。

・「背の高さ」高い, 低い

・「髪の色」うす黒い, , ブロンド

・「目の色」青い, 茶色い

事例である人は, この三つの属性が列挙された状態(ベクトル)で表す。ある人は, (低い, ブロンド, 青い)と表せるし, 別の人は, (高い, ブロンド, 茶色い)と表せる。ベクトルの順序には, 意味があり, (背の高さ, 髪の色, 目の色)の順に表現する。

事例の表現では, 人間を例に挙げた。では, クラスはどうなるか。ここの人間の例では, Aさんが好きな人と嫌いな人に分ける。(低い, ブロンド, 青い)と表現された人は好きな人, (高い, ブロンド, 茶色い)と表現された人は嫌いな人と言うように, 各属性値ベクトルで表現された事例が, どのクラスに属するかを決めておく。この事例と事例の属するクラスが帰納学習での入力となる。

では, 機械で学習させて, 得られた知識はどのように表現するか。一例は, if-thenルールである。もし, 髪の色=ブロンド, かつ, 目の色=茶色だったら, 「好きな人」のクラスに属するとか, もし, 髪の色=うす黒い, ならば, 「嫌いな人」のクラスに属すると言うようにif-then(もし~ならば~)という形式で表現する方法がある。ここでは, このif-thenルールで表現する方法に似ているが, これを圧縮した形で表現する決定木という方法をとる。

 決定木の例を3.3に示した。(低い, ブロンド, 青い)と表現された人はどのクラスに属するかをどう調べるか。まず, 一番上の部分に「髪の色」とある。ここでは, 髪の色が何かを調べる。この場合は, 「ブロンド」である。「ブロンド」の線をたどると, 「目の色」とある。そこで, 目の色を調べる。ここでは, 「青い」である。「青い」の線をたどると「好き」である。ここで, 「好き」なクラスに属することがわかる。(高い, ブロンド, 茶色い)という属性を持つ人は, 「嫌い」であることを確認できるだろうか。先ほどと同様に, 一番

3.3 決定木の例

上の髪の色を調べ, ブロンドを辿り, 目の色を調べ, 茶色いを辿り, 嫌いに属する。このような構造を木と呼ぶ。一番上の髪の色とかかれた部分を根(root)と呼ぶ。線を上から辿って, 一番下の部分の「好き」「嫌い」とかかれた4箇所を葉(leaf)と呼ぶ。植物の木を逆さにしたような構造である。

この木は4つのif-thenルールで表現できる。

1                         もし, 髪の色がうす黒いならば嫌い

2         もし, 髪の色が赤いならば好き

3         もし, 髪の色がブロンドで, かつ, 目の色が青いならば好き

4         もし, 髪の色がブロンドで, かつ, 目の色が茶色いならば嫌い

最初に調べる属性が髪の色であるから, このように if-thenルールを圧縮できる。

では, 事例から, 決定木を得る方法を説明する。まず, 最初に木の根に相当する属性を何にして, 分類するかである。ここでの人の例の属性は, 背の高さ, 髪の色, 目の色の3種類がある。このうち, どれを選択するか評価してくれる関数があるとする。その評価関数の評価値によって, もっともうまく分類できる, 最も適した属性を調べることができると仮定しよう。この関数は事例と各事例が属するクラスが与えられ, 各属性の評価値を求める。その関数によって, 最初の属性は「髪の色」がよいとわかったとする。そうすると, うす黒い, 赤い, ブロンドと3つに枝分かれする。髪の色がうす黒い事例とその事例が属するクラスを調べる。すべて, 同じクラスに属していれば, そこは葉になる。この場合は, すべて, 嫌いに属していたので, 「嫌い」という葉になる。同様に, 髪の色が赤い事例とその事例が属するクラスを調べる。すべて, クラスがすべて「好き」だったので, 「好き」という葉になる。髪の色がブロンドの事例は「好き」に属する場合と, 「嫌い」に属する2種類が混在していたとする。その場合は, 再び, 先ほどの評価関数を利用して, 評価関数に髪の色がブロンドに属する事例とクラスを与え, この時点ではどの属性で分類すればいいかを調べる。そうしたら, 「目の色」がここで分類するのがよいと得られたとする。次は目の色が青い事例とその事例が属するクラスを調べる。ここでは, すべて「好き」なので, 「好き」という葉になる。同様に, 目の色が茶色いを調べると, すべて, 嫌いなのでここでは嫌いという葉になる。 以上を整理すると, 事例がすべて同じクラスに属していたら, そのクラスの葉となる。事例が複数のクラスに属している場合は, 分類するための属性を評価関数によって求め, その属性で分類する。分類した先は, 再帰的にこの処理を呼び出す。

決定木学習の代表的な学習法にはキンラン(1993)によるC4.5があり, 本研究ではこれを使うことにした。キンランのC4.5では評価関数として, 以下のエントロピ-に基づく量を使用する。

H(S)=-∑pj log pj              (3.15)

ここで, jはクラスでPjは集合Sにおけるあるクラスjの出現率を示す。エントロピーH(S), 集合(S)内のクラス分布の「あいまいさ」, つまり, 乱雑さを示しているので, H(s)がなるべく小さいサブ集合から構成されるほど, 分類精度が高いといえる。

一方, 3.4に示すように, ある条件式で, 集合Sをサブ集合S1S2に分割した場合, ントロピーの変化は式4.2で表される。 

Gain=H(S)-(|S*H(S)+|S|*H(S))/|S|    (3.16)

この量を相互情報量ゲイン率と呼ぶ。

キンランのC4.5アルゴリズムでは, あらゆる属性についてありうる条件式を用いて分割テストを行い, 分割テストの際に相互情報量ゲイン率を最大化する条件式を選択しながら, 木構造を成長させることによって最適な決定木を獲得する。

3.4 決定木の分割テスト説明


3.3 
問題点

強化学習の中のSarsaQ-learning, 環境モデルを必要とせず経験から学習する, 最適性・収束性が得られているなどの利点があって, 広く使われているが, 環境状態があまり大きく変化すると, ほとんど知識のない状態から再度相互作用のみによって学習するので, 大量の相互作用が必要となる。このため学習の収束が遅くなる。また, 各環境に対する学習の際, 過度に適応すると, 少し異なる環境への適応性(汎用性)が失われるなどといった問題が考えられる。

 また, 行動のルールをマイニングする場合も, 事例として, 環境(属性)と行動〔クラス〕をサンプリングして, これから行動ルールをマイニングすればよいが, この事例のサンプリングを人間が判断しながらおこなうと膨大なコスト(時間, マンパワーの両面で)かかる恐れがある。こうした両者の問題は, 強化学習と決定木を組み合わせ, 強化学習で得た結果を決定木によってマイニングすることにより, 改善できる可能性がある。

次章では, 実際に簡単なエージェントの行動習得実験を通して, 強化学習の結果から, 汎用ルールを決定木でマイニングする試みについて述べる。


关于我们  |  诚聘英才  |  联系我们  |  友情链接
版权所有:@ 智尚代写联盟 电话:0760-86388801 客服QQ:875870576
地址: 广东中山市学院路1号 皖ICP备12010335号-7
  • 論文作成開始報告書
  • 西语作业代写PLANIFICACI&
  • 西班牙语作业代写PLANIFICAC
  • 高等教育科学研究项目立项指南
  • Reason for applica
  • 日语学位论文开题报告代写
  • 翻译硕士(英语笔译及英语口译)学位论
  • 中国现当代文学翻译的现状与问题
  • 文学翻译新观念
  • 找人代写硕士论文,要求写手至少硕士学
  • 重复提取促进长期记忆保持和意义学习的
  • 艺术院校内容依托英语教学的实证研究
  • 基于概念场的认知框架中的概念隐喻分析
  • 多元回归统计建模在语料库语言学中近义
  • paper6工作室专注留学生论文代写
  • 德语医学论文标题汉译的编辑加工
  • 高职韩语专业毕业论文的问题分析
  • develop communicat
  • VICTORIA UNIVERSIT
  • 日本地址电话
  • 英语动词现在时与将来时呼应的认知解读
  • 核心素养与英语课堂教学
  • 新国标下商务英语精读内容与语言融合型
  • 语言生态学视阈下美国语言教育政策研究
  • 应用技术型民族院校的大学英语教学改革
  • 圣诞节西班牙语
  • 基于区域经济发展的分类递进式大学英语
  • MOOC对高校专业课教学的效能研究
  • 西班牙语论文代写
  • 实习报告写作要求规范细则
  • 茶本体的开发,实现和评估
  • Anaylse des Leben
  • um Material,was ge
  • TEXTOS WEB ACOCEX
  • praktische WurzelS
  • FAQ vom Würzelschn
  • 中国饮食文化法国饮食文化
  • 中国春节特色法国圣诞节
  • 英韩翻译案例
  • 中国自動車産業の現状と課題 -環境保
  • 战争的结构
  • 法语论文修改意见
  • reference 代写
  • A proposal submitt
  • Gründe der erfolge
  • 工业翻译中译英考试题目
  • Introduction to en
  • 从汉法主要颜色词汇的文化内涵看两国文
  • Un problème chez &
  • INTERNATIONAL AND
  • IHRM Individual re
  • НАЦИОНАЛЬНО-КУЛЬТУ
  • ТЕОРЕТИЧЕСКИЕ ОСНО
  • SPE会议论文翻译
  • Project Proposal 地
  • 中国意大利家用电器领域合作的可能性和
  • Career Goal与Career
  • Caractéristiques e
  • L'influence de l'S
  • 英语口语教学改革途径测试与分析
  • 语用学理论与高校英语阅读教学
  • 日本语研究计划书写作申请
  • To Whom it May Con
  • 译文中英对照葡萄酒产品介绍
  • 韩国传统用餐礼节
  • 日本語の暧昧語婉曲暧昧性省略表現以心
  • 研究计划书写作要求
  • Outline Impact of
  • 计算机工程与网络技术国际学术会议EI
  • 微软的人脸3D建模技术 Kinect
  • Qualitative resear
  • 新闻的感想
  • 与老师对话的测验
  • 韩语论文修改意见教授老师
  • 华南师范大学外国语言文化学院英语专业
  • APA论文写作格式
  • the surrounding en
  • Современное состоя
  • CHIN30005 Advanced
  • The APA Harvard Sy
  • Annotated Bibiolgr
  • Acker Merrall & Co
  • 资生堂进入中国市场的经营策略
  • Introduction to Pu
  • 软件测试Introduction t
  • Pro Ajax and java
  • 用户体验The user exper
  • AJAX Design Patter
  • The Rich Client Pl
  • Keyframer Chunks
  • 3D-Studio File For
  • Mathematics for Co
  • The Linux MTD, JFF
  • 中日体态语的表现形式及其差异
  • CB 202 System Anal
  • 论日本恐怖电影与好莱坞恐怖片的异同
  • 俄语论文修改
  • 古典诗歌翻译英语论文资料
  • <한중
  • 公司治理(Corporate Gov
  • 英语习语翻译中的移植与转换
  • 日语(上) 期末复习题
  • ACTIVIDAD CORRESPO
  • 리더&#
  • 购物小票翻译
  • 论文摘要翻译英文
  • Bedeutung der Prod
  • ELABORACIÓN
  • 英语考卷代写代做
  • 日本語の感情形容詞の使用特徴——ドラ
  • 未来創造学部卒業研究要領
  • 光之明(国际)低碳产品交易中心介绍
  • 中国の茶文化と日本茶道との比較—精神
  • 목차
  • Final Project Grad
  • 東京学芸大学>センターなど教員許 夏
  • 東京学芸大学 大学院教育学研究科(修
  • 白澤論
  • ポスト社会主義モンゴルにおけるカザフ
  • 言語と色彩現象—史的テクストをもとに
  • 渡来人伝説の研究
  • 中日企业文化差异的比较
  • Modellierung des B
  • 日本大学奖学金申请
  • 大学日语教师尉老师
  • 석사&#
  • Chemical Shift of
  • 中韩生日习俗文化比较
  • Measure of Attachm
  • 酒店韩国客人满意度影响因素研究
  • 要旨部分の訂正版をお送りします
  • Writing and textua
  • 日本企業文化が中国企業にもたらす啓示
  • 日本情报信息专业考试题
  • 雅丽姿毛绒时装有限公司网站文案(中文
  • 語用論の関連性理論「carston」
  • 組織行動と情報セキュリティ.レポート
  • Bedarf
  • 中日企业文化差异的比较
  • 从语形的角度对比中日“手”语义派生的
  • 中国明朝汉籍东传日本及其对日本文化的
  • 《中日茶道文化比较》
  • 从中日两国电视剧看中日文化之差异
  • FOM Hochschule für
  • Die Rolle der Bank
  • A Penny for Your T
  • 也谈ガ行鼻浊音的语音教学问题
  • On the Difference
  • 衣装は苗族の伝統文化の主な表現形式
  • 日语语言文学硕士论文:日本の义务教育
  • 日本的茶文化
  • Samsung Electronic
  • Synthesis and char
  • The traveling mark
  • The Japanese Democ
  • 四季の歌
  • CapitoloI La situa
  • The Effects of Aff
  • WEB服务安全保障分析
  • 音译汉语和英语的相互渗透引用
  • 中日两国服装贸易日语论文写作要求
  • 日语论文修改意见
  • 英语作文题目
  • 申请留学社会经验心得体会
  • BE951 Coursework O
  • Overview township
  • 日本の長寿社会考察
  • 日语老师教师电话联系方式
  • 「依頼」に対する中上級者の「断り」に
  • 日本語序論
  • component formatti
  • 日文文献资料的查阅方法
  • 日文文献资料的查阅方法
  • 日语文献检索日文文献搜索网站
  • 日本留学硕士及研究生的区别硕士申请条
  • Adult attachment s
  • レベルが向上する中国の日本学研究修士
  • 日本留学硕士(修士)与研究生的区别
  • Nontraditional Man
  • Engine Lathes
  • Automatic Screw M
  • Chain Drives
  • V-belt
  • Bestimmung der rut
  • 中山LED生产厂家企业黄页大全
  • 活用神话的文化背景来看韩国语教育方案
  • MLA論文格式
  • 旅游中介
  • MLA论文格式代写MLA论文
  • 小論文參考資料寫作格式範例(採APA
  • clothing model; fi
  • 共同利用者支援システムへのユーザー登
  • 太陽風を利用した次世代宇宙推進システ
  • RAO-SS:疎行列ソルバにおける実
  • 井伏鱒二の作品における小動物について
  • 從“老祖宗的典籍”到“現代科學的証
  • “A great Pecking D
  • 净月法师简历
  • 科技论文中日对照
  • 翻译的科技论文节选
  •  IPY-4へ向ける準備の進み具合
  • 論文誌のJ-STAGE投稿ʍ
  • Journal of Compute
  • 学会誌 (Journal of Co
  • 学会誌JCCJ特集号への投稿締切日の
  • 「化学レポート:現状と将来」
  • 韩语翻译个人简历
  • 九三会所
  • 事態情報附加連体節の中国語表現につい
  • International Bacc
  • HL introduction do
  • コーパスを利用した日本語の複合動詞の
  • 日语分词技术在日语教材开发中的应用构
  • 北極圏環境研究センター活動報告
  • 语用学在翻译中的运用
  • 日汉交替传译小议——从两篇口译试题谈
  • 総合科学専攻における卒業論文(ミニ卒
  • Heroes in August W
  • 玛雅文明-西班牙语论文
  • 西班牙语论文-西班牙旅游美食建筑
  • 八戸工業大学工学部環境建設工学科卒業
  • 親の連れ子として離島の旧家にやって来
  • 「米ソ協定」下の引揚げにおいて
  • タイトル:少子化対策の国際比較
  • メインタイトル:ここに入力。欧数字は
  • 東洋大学工学部環境建設学科卒業論文要
  • IPCar:自動車プローブ情報システ
  • Abrupt Climate Cha
  • Recognition of Eco
  • Complexities of Ch
  • Statistical Analys
  • Dangerous Level o
  • 中日对照新闻稿
  • 俄汉语外来词使用的主要领域对比分析
  • 两种形式的主谓一致
  • 韩语论文大纲修改
  • 중국&#
  • 俄语外来词的同化问题
  • 北海道方言中自发助动词らさる的用法与
  • 论高职英语教育基础性与实用性的有机结
  • 论高职幼师双语口语技能的培养
  • 论高职幼师英语口语技能的培养
  •     自分・この眼&
  • 成蹊大学大学院 経済経営研究科
  • アクア・マイクロ
  • 公共経営研究科修士論文(政策提言論文
  • 基于学习风格的英语学习多媒体课件包
  • 后殖民时期印度英语诗歌管窥
  • 汉语互动致使句的句法生成
  • 笔译价格
  • 携帯TV電話の活用
  • 英語学習におけるノートテイキング方略
  • 強化学習と決定木によるエージェント
  • エージェントの行動様式の学習法
  • 学習エージェントとは
  • 強化学習と決定木学習による汎用エージ
  • 講演概要の書き方
  • 对学生英语上下义语言知识与写作技能的
  • 英汉词汇文化内涵及其翻译
  • 论大学英语教学改革之建构主义理论指导
  • 国内影片片名翻译研究综观及现状
  • 平成13年度経済情報学科特殊研究
  • Comparison of curr
  • 英文论文任务书
  • This project is to
  • the comparison of
  • デジタルペンとRFIDタグを活用した
  • 無資格者無免許・対策関
  • 創刊の辞―医療社会学の通常科学化をめ
  • gastric cancer:ade
  • 揭示政治语篇蕴涵的意识形态
  • 试论专业英语课程项目化改革的可行性
  • 多媒体环境下的英语教学交际化
  • 翻译认知论
  • 读高桥多佳子的《相似形》
  • 以英若诚对“Death of A S
  • 论沈宝基的翻译理论与实践
  • 论语域与文学作品中人物会话的翻译
  • 浅析翻译活动中的文化失衡
  • 谈《傲慢与偏见》的语言艺术
  • 论语言结构差异对翻译实效性的影响
  • 英语传递小句的认知诠释
  • 英语阅读输入的四大误区
  • 在语言选择中构建社会身份
  • 私たちが見た、障害者雇用の今。
  • 震災復興の経済分析
  • 研究面からみた大学の生産性
  • 喫煙行動の経済分析
  • 起業の経済分析
  • 高圧力の科学と技術の最近の進歩
  • 「観光立国」の実現に向けて
  • 資源としてのマグロと日本の動向
  • 揚湯試験結果の概要温泉水の水質の概要
  • 計量史研究執筆要綱 
  • 日中友好中国大学生日本語科卒業論文
  • 제 7 장
  • 전자&
  • 現代國民論、現代皇室論
  • 記紀批判—官人述作論、天皇宗家論
  • 津田的中國觀與亞洲觀
  • 津田思想的形成
  • 反思台灣與中國的津田左右吉研究
  • 遠隔講義 e-learning
  • 和文タイトルは17ポイント,センタリ
  • Design And Impleme
  • Near-surface mount
  • 중국 &
  • 韩国泡菜文化和中国的咸菜文化
  • 무한&#
  • 수시 2
  • 韩流流向世界
  • 무설&#
  • 要想学好韩语首先得学好汉语
  • 사망&#
  • Expression and Bio
  • Increased Nuclear
  • 论女性主义翻译观
  • 健康食品の有効性
  • 日语的敬语表现与日本人的敬语意识
  • 日语拒否的特点及表达
  • Solve World’s Prob
  • 韩汉反身代词“??”和“自己”的对比
  • 韩汉量词句法语义功能对比
  • 浅析日语中的省略现象
  • 浅谈日语中片假名的应用
  • 土木学会論文集の完全版下印刷用和文原
  • 英语语调重音研究综述
  • 英汉语言结构的差异与翻译
  • 平等化政策の現状と課題
  • 日本陸軍航空史航空特攻
  • 商务日语专业毕业生毕业论文选题范围
  • 家庭内暴力の現象について
  • 敬语使用中的禁忌
  • Treatment of high
  • On product quality
  • Functional safety
  • TIDEBROOK MARITIME
  • 日文键盘的输入方法
  • 高职高专英语课堂中的提问策略
  • 对高校学生英语口语流利性和正确性的思
  • 二语习得中的文化错误分析及对策探讨
  • 高职英语专业阅读课堂教学氛围的优化对
  • 趣谈英语中的比喻
  • 浅析提高日语国际能力考试听力成绩的对
  • 外语语音偏误认知心理分析
  • 读格林童话《小精灵》有感
  • “新世纪”版高中英语新课教学导入方法
  • 初探大学英语口语测试模式与教学的实证
  • 中加大学生拒绝言语行为的实证研究
  • 目的论与翻译失误研究—珠海市旅游景点
  • 对学生英语上下义语言知识与写作技能的
  • 英语水平对非英语专业研究生语言学习策
  • 英语教学中的文化渗透
  • 中学教师自主学习角色的一项实证研究
  • 叶维廉后期比较文学思想和中诗英译的传
  • 钟玲中诗英译的传递研究和传递实践述评
  • 建构主义和高校德育
  • 论习语的词法地位
  • 广告英语中的修辞欣赏
  • 从奢侈品消费看王尔德及其唯美主义
  • 论隐喻的逆向性
  • 企盼和谐的两性关系——以劳伦斯小说《
  • 论高等教育大众化进程中的大学英语教学
  • 试论《三四郎》的三维世界
  • 李渔的小说批评与曲亭马琴的读本作品
  • 浅谈中国英语的表现特征及存在意义
  • 湖南常德农村中学英语教师师资发展状况
  • 海明威的《向瑞士致敬》和菲茨杰拉德
  • 围绕课文综合训练,培养学生的写作能力
  • 指称晦暗性现象透析
  • 西部地区中学生英语阅读习惯调查
  • 论隐喻的逆向性
  • 认知体验与翻译
  • 试析英诗汉译中的创造性
  • 言语交际中模糊语浅议
  • 认知体验与翻译
  • 关于翻译中的词汇空缺现象及翻译对策
  • 从互文性视角解读《红楼梦》两译本宗教
  • 从目的论看中英动物文化词喻体意象的翻
  • 高校英语语法教学的几点思考
  • 高校体艺类学生外语学习兴趣与动机的研
  • 大学英语自主学习存在的问题及“指导性
  • 从接受美学看文学翻译的纯语言观
  • 《红楼梦》两种英译本中服饰内容的翻译
  • 法语对英语的影响
  • 影响中美抱怨实施策略的情景因素分析
  • 代写需求表
  • 跨文化交际中称赞语的特点及语言表达模
  • 实现文化教育主导外语教育之研究
  • 试论读者变量对英语阅读的影响
  • 从文化的角度看英语词汇中的性别歧视现
  • 合作原则在外贸函电翻译中的运用
  • Default 词义探悉
  • 从图示理论看英汉翻译中的误译
  • 许国璋等外语界老前辈所接受的双语教学
  • “provide” 和 “suppl
  • 由英汉句法对比看长句翻译中的词序处理
  • 1000名富翁的13条致富秘诀中英对
  • 英语中18大激励人心的谚语中英对照
  • 反省女性自身 寻求两性和谐---评
  • 浅析翻译中的“信”
  • 集体迫害范式解读《阿里》
  • 横看成岭侧成峰-从美学批评角度解读《
  • 福柯的话语权及规范化理论解读《最蓝的
  • 播客技术在大学英语教学中的应用
  • 如何在山区中等专业学校英语课堂实施分
  • 奈达与格特翻译理论比较研究
  • 语篇内外的衔接与连贯
  • Economic globaliza
  • 用概念整合理论分析翻译中不同思维模式
  • 英语新闻语篇汉译过程中衔接手段的转换
  • 对易卜生戏剧创作转向的阐释
  • 动词GO语义延伸的认知研究
  • 反思型教师—我国外语教师发展的有效途
  • 输入与输出在词汇学习中的动态统一关系
  • 教育实践指导双方身份认同批判性分析
  • 中英商务文本翻译异化和归化的抉择理据
  • 从艺术结构看《呼啸山庄》
  • 从儒家术语“仁”的翻译论意义的播撒
  • 论隐喻与明喻的异同及其在教学中的启示
  • 话语标记语的语用信息在英汉学习型词典
  • 论森欧外的历史小说
  • 翻译认知论 ——翻译行为本质管窥
  • 中美语文教材设计思路的比较
  • 美国写作训练的特点及思考
  • UP语义伸延的认知视角
  • 成功的关键-The Key to S
  • 杨利伟-Yang Liwei
  • 武汉一个美丽的城市
  • 对儿童来说互联网是危险的?
  • 跨文化交际教学策略与法语教学
  • 试论专业英语课程项目化改革的可行性-
  • 论沈宝基的翻译理论与实践
  • 翻译认知论——翻译行为本质管窥
  • 母爱的虚像 ——读高桥多佳子的《相似
  • 浅析英语广告语言的特点
  • 中国の株価動向分析
  • 日语拒否的特点及表达
  • 日语的敬语表现与日本人的敬语意识
  • 浅析日语中的省略现象
  • 浅谈日语中片假名的应用
  • 浅谈日语敬语的运用法
  • 浅谈日语会话能力的提高
  • ^论日语中的年轻人用语
  • 敬语使用中的禁忌
  • 关于日语中的简略化表达
  • 关于日语的委婉表达
  • The Wonderful Stru
  • Of Love(论爱情)
  • SONY Computer/Notb
  • 从加拿大汉语教学现状看海外汉语教学
  • MLA格式简要规范
  • 浅析翻译类学生理解下的招聘广告
  • 日本大学排名
  • 虎头虎脑
  • 杰克逊涉嫌猥亵男童案首次庭审
  • Throughout his car
  • June 19,1997: Vict
  • 今天你睡了“美容觉”吗?
  • [双语]荷兰橙色统治看台 荷兰球员统
  • Father's Day(异趣父亲节
  • 百佳电影台词排行前25名
  • June 9,1983: Thatc
  • June 8, 1968: Robe
  • 60 players mark bi
  • June 6, 1984: Indi
  • 日本の専門家が漁業資源を警告するのは
  • オーストリア巴馬は模範的な公民に日本
  • 日本のメディアは朝鮮があるいは核実験
  • 世界のバレーボールの日本の32年の始
  • 日本の国債は滑り降りて、取引員と短い
  • 广州紧急“清剿”果子狸
  • 美国“勇气”号登陆火星
  • 第30届冰灯节哈尔滨开幕
  • 美国士兵成为时代周刊2003年度人物
  • BIRD flu fears hav
  • 中国チベット文化週間はマドリードで開
  • 中国チベット文化週間はマドリードで開
  • 中国の重陽の文化の発祥地──河南省西
  • シティバンク:日本の国債は中国の中央
  • イギリスは間もなく中国にブタ肉を輸出
  • 古いものと新しい中国センター姚明の失
  • 中国の陝西は旅行して推薦ӥ
  • 中国の電子は再度元手を割って中国の有