视频网站开发费用常德网站制作建设

张小明 2025/12/30 11:13:35
视频网站开发费用,常德网站制作建设,html美食网页设计源码,wordpress 点击排行一、价值迭代的问题在FrozenLake环境中#xff0c;交叉熵方法改为价值迭代后#xff0c;模型收敛速度加快。价值迭代时对所有状态进行循环#xff0c;并对每个状态用Bellman方程更新价值。该过程中#xff0c;对于同一方法中Q值#xff08;动作价值#xff09;变化似乎相…一、价值迭代的问题在FrozenLake环境中交叉熵方法改为价值迭代后模型收敛速度加快。价值迭代时对所有状态进行循环并对每个状态用Bellman方程更新价值。该过程中对于同一方法中Q值动作价值变化似乎相同但要估算并存储每个状态和动作的价值所以这个过程的问题如下1、环境状态的数量及迭代能力1)状态和动作迭代加耗CPU(2)真正优质的状态转移动态的估计所需要的样本数量。假设一个环境有十亿个状态约为31600*31600的FrozenLake每个状态计算近似价值需要在状态之间均匀分布数千亿转移。3)枚举所有可能状态但其中99.9%的状态为无用状态。例如Atari平台的状态空间屏幕分辨率210*160像素每个像素128种颜色每一帧210*16033600个像素总状态数128^33600,比10^70802略多。如果枚举Atari的所有可能状态那么即使是超级计算机也要数十亿亿年。99.9%的时间在做无用功因为大多数组合即使在很长的游戏过程中都不会出现因此永远不会有这些状态的样本。2、限制为离散动作空间Q(s,a)和V(s)的近似指都假设动作是互斥的离散集对于动作可以是连续变量例如方向盘的角度、执行器上的力或者加热器的温度的连续控制问题并不一定正确。二、表格Q-learning不需要遍历状态空间中的所有状态只关心从环境中获得的状态更新状态价值。对于有明确状态价值映射的情况具体步骤如下1从空表开始将状态映射到动作价值。2通过与环境交互获得s,a,r,)(状态、动作、奖励和新状态。在此步骤中要确定所需采取的动作并且没有单一的正确方法来做出此决定需要应用探索与利用的方法。3使用Bellman近似更新Q(s,a)值4从步骤2开始重复。终止条件是更新的某个阈值或可以执行测试片段以估计策略的预期奖励。更新Q值采用学习率平衡新、旧Q值三、代码与分析1、代码Agent类包含四个方法sample_env在动作空间中随机选取动作best_value_and_action接收环境中的状态并通过表格查找在当前状态下可以获得的最大价值和最大价值对应的动作value_update函数进行价值更新play_episode使用提供的测试表运行一个片段每个动作由Q值决定#!/usr/bin/env python3 import gym import collections from tensorboardX import SummaryWriter ENV_NAME FrozenLake-v0 GAMMA 0.9 ALPHA 0.2 TEST_EPISODES 20 class Agent: def __init__(self): 初始化环境、状态、价值表 self.env gym.make(ENV_NAME) self.state self.env.reset() self.values collections.defaultdict(float) def sample_env(self): 在动作空间中随机选取动作 :return:旧状态所采取动作、所获得奖励、新状态组成的元组 action self.env.action_space.sample() old_state self.state new_state, reward, is_done, _ self.env.step(action) self.state self.env.reset() if is_done else new_state return old_state, action, reward, new_state def best_value_and_action(self, state): 接收环境中的状态并通过表格查找在当前状态下可以获得 最大价值和最大价值对应的动作 :param state: 环境中状态 :return: 表格查找获取当前状态下可以获得的 最大价值和最大价值对应的动作 best_value, best_action None, None for action in range(self.env.action_space.n): action_value self.values[(state, action)] if best_value is None or best_value action_value: best_value action_value best_action action return best_value, best_action def value_update(self, s, a, r, next_s): 计算状态s和动作a的价值的新近似值 :param s: 当前状态 :param a: 当前动作 :param r: 当前奖励 :param next_s: 下一个状态 :return: 前进一步更新价值表 best_v, _ self.best_value_and_action(next_s) new_v r GAMMA * best_v # Bellman近似 old_v self.values[(s, a)] self.values[(s, a)] old_v * (1-ALPHA) new_v * ALPHA #使用学习率的值混合平均 def play_episode(self, env): 使用提供的测试表运行一个片段每个动作由Q值决定 该方法用于评估当前策略以检查学习进度 注意此方法不会改变价值表只是用它查找要采取的最佳动作 :param env:测试环境 :return:总奖励 total_reward 0.0 state env.reset() while True: _, action self.best_value_and_action(state) new_state, reward, is_done, _ env.step(action) total_reward reward if is_done: break state new_state return total_reward if __name__ __main__: test_env gym.make(ENV_NAME) agent Agent() writer SummaryWriter(comment-q-learning) iter_no 0 best_reward 0.0 while True: iter_no 1 s, a, r, next_s agent.sample_env() agent.value_update(s, a, r, next_s) reward 0.0 for _ in range(TEST_EPISODES): reward agent.play_episode(test_env) reward / TEST_EPISODES writer.add_scalar(reward, reward, iter_no) if reward best_reward: print(Best reward updated %.3f - %.3f % ( best_reward, 9)) best_reward reward if reward 0.80: print(Solved in %d iterations! % iter_no) break writer.close()2、结果显示四、总结与价值迭代方法相比此版本迭代次数更多原因是不再使用测试中获得的经验数据在测试过程中不触及Q值表更新。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

商城网站建设自助建站平台西安机械加工网

颠覆性边缘翻译革命:3.5亿参数实现英日互译的终极突破 【免费下载链接】LFM2-350M-ENJP-MT 项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-350M-ENJP-MT 在智能设备爆炸式增长的今天,传统云端翻译方案面临着延迟高、隐私泄露、网络…

张小明 2025/12/28 10:30:51 网站建设

福州论坛建站模板怎么自己建设公司网站

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!部分python代码n231 cp.call(get231, …

张小明 2025/12/30 11:13:49 网站建设

泰国清迈房产网站大全义乌外贸论坛

学术研究好工具:anything-llm镜像处理论文集 在人工智能加速渗透科研领域的今天,一个现实问题正困扰着越来越多的研究者:每年顶会论文动辄上千篇,PDF 文件堆满硬盘,可真正需要回顾某项技术细节时,却总要花上…

张小明 2025/12/28 10:28:32 网站建设

wordpress如何设置用户登录台州网站建设优化案例

CreamApi终极指南:3步解锁游戏DLC完整体验 【免费下载链接】CreamApi 项目地址: https://gitcode.com/gh_mirrors/cr/CreamApi 还在为心仪的游戏DLC无法体验而烦恼吗?CreamApi作为一款专业的游戏DLC自动解锁工具,能够让你轻松享受完整…

张小明 2025/12/28 10:27:56 网站建设

自己可以做类似拓者的网站吗网站开发工具安卓版

BetterNCM安装器:插件管理工具的终极解决方案 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 还在为网易云音乐插件安装的复杂流程而头疼吗?这款基于Rust语言开…

张小明 2025/12/28 10:27:21 网站建设