wordpress 视频站快盘做网站服务器-贵港市网站建设公司-Seo优化

wordpress 视频站,快盘做网站服务器,建设银行网站可以查保单吗,西安防疫今天最新消息文章目录#x1f4da; 核心结论#xff08;塔尖#xff09;#xff1a;MDP建模环境奖励信号指导学习价值函数和策略函数策略梯度深度强化学习#xff0c;通过交互学习最优策略一、MDP环境建模#xff1a;用数学模型描述环境二、奖励信号#xff1a;学习的唯一指导三、价…文章目录核心结论塔尖MDP建模环境奖励信号指导学习价值函数和策略函数策略梯度深度强化学习通过交互学习最优策略一、MDP环境建模用数学模型描述环境二、奖励信号学习的唯一指导三、价值函数评估状态和动作的长期价值四、策略函数行为选择规则五、策略梯度方法直接优化策略1. REINFORCE算法使用完整轨迹估计梯度2. Actor-Critic方法结合策略和价值3. 基线方法减少方差六、深度强化学习解决复杂决策问题七、方法选择根据问题特点权衡⏱️预计阅读时间40-50分钟学习目标学会怎么通过与环境交互学习最优策略怎么用MDP建模环境怎么用奖励信号指导学习怎么用价值函数和策略函数学习最优行为核心结论塔尖MDP建模环境奖励信号指导学习价值函数和策略函数策略梯度深度强化学习通过交互学习最优策略当你需要设计一个能够通过与环境交互学习最优策略的智能体时面临的核心问题是不是通过老师指导监督学习而是通过试错和奖励反馈强化学习来学习。就像学骑自行车没有人告诉你每一步该怎么做只能通过不断尝试摔倒了负奖励就调整骑稳了正奖励就继续最终学会骑自行车。强化学习解决的核心问题是怎么设计一个能够通过与环境交互学习最优策略的智能体解决复杂的决策问题。这需要解决几个核心问题怎么用MDP建模环境就像你要在一个迷宫中找路需要知道你现在在哪里状态、可以往哪个方向走动作、走对了有什么奖励奖励、往某个方向走会到哪里转移概率。MDP用这四个要素描述环境就像画一张地图告诉智能体这个环境是什么样的可以怎么行动。怎么用奖励信号指导学习就像训练小狗做对了给零食正奖励做错了不给负奖励小狗慢慢学会什么该做什么不该做。智能体也一样奖励高的行为会多做奖励低的行为会少做通过不断试错最终学会最优策略。怎么用价值函数和策略函数学习最优行为就像下棋时你不能只看这一步能得多少分要考虑这一步对整盘棋的影响。价值函数告诉你从这个位置开始从长远来看能得多少分策略函数告诉你在这个位置应该走哪一步。两者结合价值函数评估长期收益策略函数选择具体行动最终学会最优行为。怎么用策略梯度方法直接优化策略就像直接调整你的下棋策略不需要先计算每个位置的价值而是直接让策略越来越好。策略梯度方法直接优化策略函数就像直接调整参数使策略越来越强。怎么用深度强化学习解决复杂决策问题就像AlphaGo下围棋围棋的状态空间有1 0 170 10^{170}10170种可能不可能用表格存储每个状态的价值。这时用神经网络表示策略和价值函数就像用大脑记住下棋的经验。训练分三步先学人类怎么下有监督学习然后自己跟自己下不断改进强化学习最后结合搜索算法选择最佳走法MCTS。这样就能处理复杂决策问题。那么怎么用MDP建模环境怎么用奖励信号指导学习怎么学习最优策略怎么解决复杂决策问题这些正是本文要解决的核心。强化学习问题通过交互学习MDP环境建模用数学模型描述环境奖励信号学习指导做对了有奖励价值函数策略函数评估选择/选择行为深度强化学习复杂决策结合深度学习和强化学习探索vs利用试试新的vs选已知好的一、MDP环境建模用数学模型描述环境当你需要让智能体在环境中做决策时首先需要描述这个环境。就像你要在一个迷宫中找路需要知道迷宫的结构、你在哪里、可以往哪里走、走对了有什么奖励。MDP马尔可夫决策过程提供了强化学习的数学框架用状态、动作、奖励、转移概率等要素描述环境使问题可以形式化和求解。状态s环境当前情况现在在哪动作a智能体行为采取什么行动奖励r环境反馈做对了有奖励转移概率P(s|s,a)状态转移会转移到什么状态新状态s马尔可夫性未来只依赖当前状态新的位置累积奖励最大化目标让累积奖励最大MDP用四个核心要素描述环境状态表示环境的当前情况就像你在迷宫中的位置动作表示智能体可以采取的行为就像你可以往哪个方向走奖励表示环境对动作的反馈就像走对了有奖励走错了有惩罚转移概率表示状态转移的概率就像你往某个方向走会以多大概率到达哪个新位置。马尔可夫性是MDP的核心假设未来只依赖于当前状态不依赖过去。就像你决定下一步怎么走只需要知道现在在哪里不需要记住之前是怎么走过来的。这个假设简化了问题使强化学习可以高效求解。二、奖励信号学习的唯一指导奖励信号是学习的唯一指导智能体通过最大化累积奖励来学习最优策略。奖励高的行为被加强奖励低的行为被减弱就像通过奖励和惩罚来学习。奖励信号包括两种即时奖励是每个动作的即时反馈就像你走了一步立即知道这一步好不好累积奖励是长期累积的奖励就像你走完整个路径看总的奖励是多少。智能体的目标是最大化累积奖励而不是只看眼前的即时奖励。奖励函数的设计对学习至关重要。奖励可能是延迟的比如下围棋只有下完一盘才知道输赢中间每一步都没有明确的奖励。这时需要平衡即时奖励和长期奖励既要考虑立即的奖励也要考虑长期的奖励。就像下棋时不能只看眼前的一步要考虑整盘棋的走势。三、价值函数评估状态和动作的长期价值当你需要在多个选择中做决策时不能只看眼前的奖励要考虑长期后果。就像下棋时不能只看这一步能得多少分要考虑这一步对整盘棋的影响。价值函数使智能体能够评估不同选择的长期价值做出更好的决策。价值函数有两种状态价值V ( s ) V(s)V(s)评估状态的长期价值就像评估在这个位置从长远来看能获得多少奖励动作价值Q ( s , a ) Q(s,a)Q(s,a)评估动作的长期价值就像评估在这个位置采取这个动作从长远来看能获得多少奖励。价值函数评估长期价值状态价值V(s)状态的长期价值这个状态值多少动作价值Q(s,a)动作的长期价值这个动作值多少贝尔曼方程V(s) r γ·max Q(s,a)当前价值即时奖励未来价值贝尔曼方程Q(s,a) r γ·max Q(s,a)当前价值即时奖励未来价值最优价值最好的策略对应的价值贝尔曼方程提供价值函数的递归定义当前价值等于即时奖励加上未来价值的折扣和。就像评估一个位置的价值等于这一步的奖励加上下一步可能到达位置的价值。这样价值函数可以递归计算不需要等到游戏结束。最优价值是最优策略对应的价值函数表示如果按照最优策略行动从某个状态或采取某个动作能获得的最大累积奖励。找到最优价值就找到了最优策略。四、策略函数行为选择规则价值函数告诉你这个状态或动作值多少但最终还是要决定在什么情况下做什么。策略函数决定在给定状态下选择哪个动作。策略函数有两种确定性策略在给定状态下确定选择某个动作就像在这个位置总是往右走随机策略在给定状态下按概率选择动作就像在这个位置80%概率往右走20%概率往上走。随机策略可以增加探索避免总是走同一条路。最优策略是最大化累积奖励的策略表示如果按照这个策略行动能获得最大的累积奖励。就像找到一条从起点到终点的最优路径每一步都选择能获得最大累积奖励的动作。策略改进通过逐步改进策略找到最优策略。就像先有一个简单的策略然后根据价值函数评估找到更好的策略不断改进最终找到最优策略。五、策略梯度方法直接优化策略之前的方法如价值函数是间接的先评估价值再根据价值选择动作。策略梯度方法更直接直接优化策略函数使用梯度上升最大化期望累积奖励。策略梯度方法特别适合连续动作空间和高维状态空间。比如控制机器人动作是连续的角度值不是离散的左转、右转这时用策略梯度方法更合适。1. REINFORCE算法使用完整轨迹估计梯度REINFORCE算法是策略梯度的基础方法。它的思路很简单通过多次尝试根据结果调整策略。就像你下了一盘棋赢了就加强这盘棋中采取的策略输了就减弱。REINFORCE算法使用完整轨迹估计梯度需要等到游戏结束知道整条轨迹的累积奖励才能更新策略。梯度估计是无偏的估计是对的但梯度估计的方差较大估计不稳定因为不同轨迹的累积奖励可能差别很大。就像你下10盘棋有的赢了有的输了累积奖励差别很大导致梯度估计不稳定。2. Actor-Critic方法结合策略和价值REINFORCE算法的问题是方差大需要等完整轨迹。Actor-Critic方法解决了这个问题结合Actor策略和Critic价值函数Actor学习策略Critic评估策略Critic的评估帮助Actor更好地学习。就像有策略执行者Actor和价值评估者CriticCritic告诉Actor这个动作比平均好多少而不是这个动作的绝对价值是多少。Actor策略π(a|s)选择动作策略执行者环境执行动作获得奖励执行并反馈Critic价值函数V(s)评估状态价值评估者优势函数A(s,a) Q(s,a) - V(s)减少方差看动作比平均好多少更新Actor使用优势函数改进策略让策略越来越好更新Critic使用TD误差改进价值估计让评估越来越准Actor-Critic方法的核心是优势函数A ( s , a ) Q ( s , a ) − V ( s ) A(s,a) Q(s,a) - V(s)A(s,a)Q(s,a)−V(s)表示这个动作比平均好多少。使用优势函数而不是绝对价值可以减少方差因为优势函数衡量的是相对好坏而不是绝对价值。就像评价一个学生的表现说比平均分高10分比说得了90分更稳定因为平均分可能会变化。Actor-Critic方法可以在线学习边学边改不需要完整轨迹。就像你下棋时每走一步就可以根据Critic的评估调整策略不需要等整盘棋下完。3. 基线方法减少方差基线方法通过引入基线baseline减少策略梯度估计的方差提高训练稳定性。就像减去一个基准值减少方差。基线方法能够减少方差提高训练的稳定性同时保持梯度估计的无偏性估计是对的。常用的基线是状态价值函数V ( s ) V(s)V(s)表示在这个状态下的平均价值。六、深度强化学习解决复杂决策问题当面对复杂决策问题如围棋时状态空间巨大传统方法无法处理。就像围棋有1 0 170 10^{170}10170种可能的状态不可能用表格存储每个状态的价值。这时需要结合深度学习和强化学习用神经网络表示策略和价值函数用强化学习训练网络。AlphaGo展示了深度强化学习在复杂决策问题中的强大能力。它的训练分为三个阶段阶段1: 有监督学习学习人类经验先学人类怎么下策略网络初始化初始策略阶段2: 强化学习自我对弈自己跟自己下策略网络改进策略越来越好价值网络评估局面评估局面好坏阶段3: MCTS结合策略和价值结合策略和价值选走法AlphaGo强大决策能力强大的下棋能力阶段1有监督学习。先学习人类经验用人类棋谱训练策略网络初始化一个不错的策略。就像先学人类怎么下棋有一个基础。阶段2强化学习。通过自我对弈不断改进策略网络和价值网络相互促进策略网络选择走法价值网络评估局面两者一起训练策略越来越好。就像自己跟自己下棋不断改进。阶段3MCTS。在实际对弈时结合策略网络、价值网络和MCTS选择最佳走法。策略网络提供候选走法价值网络评估局面MCTS搜索最优路径三者结合实现强大的决策能力。深度强化学习的关键是分阶段训练从基础到高级每一步解决前一步的局限性。先学人类经验再通过自我对弈超越人类最后结合搜索算法实现强大能力。七、方法选择根据问题特点权衡在实际应用中不同的问题需要不同的方法。简单问题状态空间不大可以用MDP价值函数复杂问题状态空间巨大需要用深度强化学习。强化学习问题通过交互学习简单问题MDP价值函数状态空间不大复杂问题深度强化学习状态空间巨大探索vs利用试试新的vs选已知好的强化学习解决的核心问题是怎么设计一个能够通过与环境交互学习最优策略的智能体解决复杂的决策问题。通过MDP建模环境用数学模型描述环境通过奖励信号指导学习做对了有奖励通过价值函数和策略函数学习最优行为评估选择/选择行为通过策略梯度方法直接优化策略直接优化策略通过深度强化学习解决复杂决策问题结合深度学习和强化学习。方法选择取决于问题特点简单问题用MDP价值函数状态空间不大复杂问题用深度强化学习状态空间巨大。

wordpress 视频站快盘做网站服务器

河北涿州住房和城乡建设厅网站公司官方网站建设费计入什么科目

手机端网站提交表单验证代码维护一个网站一年多少钱

六一儿童节网站制作廊坊商昊网站建设

nginx怎么做多个网站重庆安全员c证在哪里报名

pc端购物网站建站搜索引擎关键词排名优化

邯郸网站建设wordpress 函数应用

wordpress 视频站快盘做网站服务器

河北涿州住房和城乡建设厅网站公司官方网站建设费计入什么科目

手机端网站提交表单验证代码维护一个网站一年多少钱

六一儿童节网站制作廊坊商昊网站建设

nginx怎么做多个网站重庆安全员c证在哪里报名

pc端购物网站建站搜索引擎关键词排名优化

邯郸 网站建设wordpress 函数 应用

邯郸网站建设wordpress 函数应用