中易网

急求,马尔可夫决策原理、方法和步骤

答案:1  悬赏:70  
解决时间 2021-01-16 22:58
  • 提问者网友:几叶到寒
  • 2021-01-16 01:19
急求,马尔可夫决策原理、方法和步骤
最佳答案
  • 二级知识专家网友:底特律间谍
  • 2021-01-16 02:36
不知道是不是您所需要的。祝您生活愉快,望采纳。
周期地进行观察的马尔可夫决策过程可用如下五元组来描述:{S,(A(i),i∈S,q,γ,V},其中S 为系统的状态空间(见状态空间法); A(i)为状态i(i∈S)的可用行动(措施,控制)集;q为时齐的马尔可夫转移律族,族的参数是可用的行动;γ是定义在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的单值实函数;若观察到的状态为i,选用行动a,则下一步转移到状态 j的概率为q(j│i,ɑ),而且获得报酬γ(j,ɑ),它们均与系统的历史无关;V是衡量策略优劣的指标(准则)。追问请简述马尔可夫决策原理,方法和步骤
我要举报
如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
点此我要举报以上问答信息!
大家都在看
推荐信息