珠海找工作哪个网站好甘肃兰州为啥要隐瞒阳性人员

张小明 2026/1/11 2:23:06
珠海找工作哪个网站好,甘肃兰州为啥要隐瞒阳性人员,重庆市建设工程信息网官网招投标公告,wordpress修改code标签这项由英伟达公司联合香港中文大学、成均馆大学、温州医科大学、新加坡国立大学和瑞金医院共同完成的研究于2025年12月29日发表在arXiv预印本平台#xff08;论文编号arXiv:2512.23162v1#xff09;#xff0c;有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队的第…这项由英伟达公司联合香港中文大学、成均馆大学、温州医科大学、新加坡国立大学和瑞金医院共同完成的研究于2025年12月29日发表在arXiv预印本平台论文编号arXiv:2512.23162v1有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队的第一作者包括英伟达的何宇凡、郭鹏飞香港中文大学的许梦雅以及英伟达的李肇硕等人。手术机器人就像刚入行的实习医生需要大量的实际操作经验才能掌握精细的手术技巧。但与人类医生不同的是手术机器人的学习面临着一个巨大的难题获取足够的训练数据极其困难。每一次手术都需要记录机器人的每个动作细节包括它们的位置、角度和力度变化这就像要求实习医生在学习过程中不仅要观察老师的动作还要精确记录每一个肌肉的收缩角度和力量大小。这种数据收集不仅成本高昂还受到病人隐私、伦理审查和医院设备限制等诸多约束。相比之下互联网上却存在着数量庞大的手术视频资料。这些视频就像一个巨大的手术技能图书馆记录了无数医生的操作经验和技巧但问题是这些视频只有画面没有对应的动作说明书也就是缺乏机器人控制所需的精确运动参数。这就好比你想学习一道复杂的菜肴有无数个烹饪视频可以观看但视频里没有标注具体的火候温度、调料用量和操作时机。为了解决这个问题研究团队开发了一个名为SurgWorld的创新系统。这个系统的核心思路非常巧妙既然无法直接从手术视频中获得机器人的操作指令那就先训练一个手术视频生成器让它学会如何根据文字描述生成逼真的手术场景然后再训练一个动作推理器让它能够从这些生成的视频中反推出可能的机器人操作指令。这种方法就像培养一个拥有丰富想象力的助手。当你告诉它用左侧钳子夹起缝合针然后传递给右侧钳子它能在脑海中构想出完整的手术场景包括器械的移动轨迹、组织的反应甚至光线的变化。接着另一个专门的分析师会观察这个想象出来的场景推测出实现这个动作序列所需要的具体操作步骤。研究团队首先精心构建了一个名为SATA的手术动作文本对齐数据集。这个数据集包含了2447个专业标注的视频片段总计超过30万帧图像覆盖了8种不同类型的手术程序。他们将复杂的手术操作分解为四个基本动作抓取缝合针、穿刺组织、拉扯缝线和打结。每个视频片段都配有详细的文字描述不仅说明了正在执行的动作还描述了手术器械之间的空间关系、与解剖结构的交互方式以及器械与组织之间的接触情况。比如一个典型的标注可能是这样的左侧钳子抓住缝合针的尖端以平滑控制的轨迹接近目标然后将针传递给右侧钳子。这种精细的描述就像为每个手术动作编写了详细的剧本不仅包含了做什么还包含了怎么做和在什么情况下做。基于这个数据集研究团队构建了SurgWorld模型。这个模型基于英伟达最先进的Cosmos2.5物理AI世界模型进行改进专门针对手术场景进行了优化。SurgWorld能够理解文字指令并生成相应的高质量手术视频。这些生成的视频不仅在视觉上逼真更重要的是在医学上合理符合真实手术的物理规律和解剖学原理。为了验证SurgWorld的效果研究团队设计了一个有趣的测试。他们给模型提供了同一个起始画面但配以不同的文字指令一次传递、两次传递、三次传递和穿刺动作。结果令人印象深刻模型准确地根据不同指令生成了相应的视频序列。特别值得注意的是两次和三次传递序列代表了模型在训练过程中从未明确见过的复杂组合动作。这表明SurgWorld不仅能记住训练数据还具备了一定的创造性推理能力能够将学到的基本动作重新组合成新的操作序列。接下来是更加关键的一步从生成的视频中推理出机器人的控制指令。研究团队开发了一个逆向动力学模型这个模型就像一个经验丰富的工程师能够通过观察机器人的运动轨迹反推出产生这种运动所需的控制指令。该模型采用了与GR00T N1.5类似的架构通过分析视频中相隔16帧的两个画面推断出中间所有帧对应的机器人动作参数。这个逆向推理过程非常精密。机器人的每个时刻的状态都用一个20维的连续向量来表示包括左右两个器械的三维位置、六维旋转表示和钳子开合角度。这些参数都是相对于内窥镜坐标系定义的确保了控制指令的视角一致性。就像一个精密的舞谱记录系统不仅要记录舞者的每个位置还要记录他们的朝向、姿态和动作幅度。为了测试这套系统的实际效果研究团队选择了缝合针拾取与传递这个基础但具有代表性的手术任务。这个任务看似简单但实际上需要精确的双手协调、准确的力度控制和精密的空间定位能力。他们收集了60个成功的人工遥操作演示作为基准每个演示平均包含217帧图像和相应的动作参数。实验在一个商用内窥镜手术系统上进行该系统配备了立体内窥镜和两个铰接式机器人钳子。实验设置就像一个简化版的真实手术环境在红色橡胶垫上放置缝合针左臂机器人需要精确抓取针头并将其传递给右臂机器人。虽然这个设置看起来简单但它包含了真实手术中的核心技术挑战精确的视觉定位、稳定的抓取控制和流畅的双臂协调。实验结果令人鼓舞。研究团队比较了三种不同的训练策略仅使用真实演示数据的基线方法、加入56个合成视频的增强方法以及加入560个合成视频的大规模增强方法。结果显示随着合成数据量的增加机器人策略的性能稳步提升。在轨迹预测精度方面使用大量合成数据训练的模型显著优于仅用真实数据训练的模型预测误差在笛卡尔坐标、旋转角度和钳子开合等各个维度都有明显降低。这个改进效果在不同的真实训练数据量下都保持一致。无论是使用5个、10个还是20个真实演示加入合成数据都能带来显著的性能提升。这表明SurgWorld生成的合成数据确实包含了有价值的信息能够有效补充有限的真实训练数据。为了进一步验证方法的普适性研究团队还测试了多视角场景下的效果。在真实手术中医生往往需要多个摄像头提供不同角度的视野。他们发现即使真实数据包含多个摄像头视角单视角的合成数据仍然能够改善多视角策略的性能。这个发现特别有价值因为它表明合成数据学习到的运动规律和协调模式具有跨视角的泛化能力。研究团队还进行了人体专家评估邀请三位手术专家对生成的视频进行临床真实性评估。专家们从文本视频对齐度、器械一致性和解剖结构合理性三个维度对视频进行1到3分的评分。结果显示SurgWorld在所有维度都获得了最高评分特别是在器械行为的连续性和自然性方面表现突出生成的视频能够准确执行现实的抓取和针头处理动作没有明显的视觉伪影。值得一提的是这项研究首次将手术世界模型与机器人学习有机结合起来。以往的手术视频生成研究主要关注视觉效果和医学合理性而这项工作更进一步将生成的视频作为机器人策略学习的数据来源。这种跨领域的融合为解决手术机器人数据稀缺问题开辟了新的路径。在技术实现上SurgWorld采用了参数高效的LoRA微调技术在保持原有Cosmos2.5模型通用视频生成能力的同时针对手术场景进行专门优化。这种设计使得模型能够在有限的手术专用数据上快速适应避免了从零开始训练大规模模型所需的巨大计算资源。同时研究团队采用了流匹配训练框架这种方法在概念上更加简洁在实际应用中也表现出更好的优化稳定性和样本质量。逆向动力学模型的设计也颇具匠心。该模型基于扩散变换器架构能够处理高维的动作空间和复杂的时序依赖关系。通过预测相隔16帧图像之间的所有中间动作模型学会了捕捉手术操作中的细微变化和平滑过渡。这种设计确保了生成的伪动作标签不仅在数值上合理在时序上也保持了良好的连续性。研究还展现了良好的泛化能力。团队测试了不同的超参数设置、不同的VLA基础模型结果都显示出一致的改进趋势。他们尝试了πO.5模型作为替代的策略学习框架同样观察到合成数据带来的性能提升。这种跨模型的一致性表明所提出方法的有效性不依赖于特定的模型架构而是源于合成数据本身的价值。当然这项研究也面临一些挑战和限制。目前的方法仍然需要针对特定的机器人平台进行世界模型和逆向动力学模型的微调这意味着扩展到新的机器人系统时需要额外的数据收集工作。逆向动力学模型推断的伪动作标签虽然在统计上有效但在精度上仍然无法完全媲美真实的动作记录可能会引入一定程度的噪音。此外当前的SATA数据集虽然涵盖了多种手术类型但相对于整个手术医学领域的复杂性来说仍然有限。尽管存在这些限制这项研究的意义不容小觑。它为手术机器人的自主化发展提供了一条全新的技术路线特别是在数据获取困难的医疗场景中。通过巧妙地利用大量无标签的手术视频资源结合先进的生成式AI技术研究团队成功构建了一个能够自我生成训练数据的学习系统。这种方法的潜在应用前景广阔。随着技术的不断完善未来的手术机器人可能能够通过观看大量手术视频来快速学习新的操作技能就像人类医生通过观摩前辈的手术来提高自己的技艺一样。这不仅能够大幅降低手术机器人的训练成本还能够加速新技术的推广普及让更多医院和患者受益于机器人辅助手术的优势。从更广阔的角度来看这项研究代表了AI在医疗领域应用的一个重要里程碑。它展示了如何将计算机视觉、自然语言处理、生成式建模和机器人控制等多个AI子领域的技术有机结合解决实际的医疗问题。这种跨学科的技术融合为其他医疗AI应用提供了有价值的参考可能会推动更多创新解决方案的出现。说到底SurgWorld系统最大的价值在于它开辟了一条用AI训练AI的新路径。通过让机器人看视频学手艺这项研究不仅解决了手术机器人训练数据稀缺的问题更重要的是展示了AI系统自我改进和持续学习的可能性。随着技术的进一步发展和完善我们有理由相信自主手术机器人将在不远的将来成为医疗领域的重要助手为提高手术精度、减少医疗事故和缓解医生工作负担发挥重要作用。QAQ1SurgWorld是什么它是如何工作的ASurgWorld是英伟达开发的手术机器人训练系统它的工作原理类似于看视频学手艺。系统先通过分析大量手术视频学会生成逼真的手术场景然后使用逆向推理技术从这些场景中推测出机器人的操作指令。这样就能利用互联网上丰富的手术视频资源来训练机器人而不需要昂贵的专门数据收集。Q2SurgWorld训练出来的手术机器人表现如何A实验结果显示使用SurgWorld合成数据训练的机器人在轨迹预测精度上显著优于仅用真实数据训练的机器人。在缝合针拾取与传递任务中加入合成数据后机器人的预测误差在各个维度都有明显降低而且这种改进效果在不同数据量下都保持一致。Q3SurgWorld能否应用到所有类型的手术机器人A目前SurgWorld仍需要针对特定机器人平台进行微调这意味着扩展到新的机器人系统时需要额外的适配工作。不过研究显示该方法具有良好的泛化能力在不同的基础模型和参数设置下都能带来性能提升未来有望发展成更通用的解决方案。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

付费小说网站建设网站推广软件有哪些

还在为跨平台无法下载Steam创意工坊模组而烦恼吗?🤔 想不想知道如何在不登录Steam的情况下,也能畅享海量游戏模组资源?今天就来揭秘这款神器——WorkshopDL,让你的游戏体验瞬间升级! 【免费下载链接】Works…

张小明 2026/1/9 17:40:41 网站建设

网站开发课题背景安居客二手房

腾讯混元世界模型 HY-World 1.5 开源,实现了 24 FPS(每秒帧数)的实时交互式世界生成。混元团队提出了 WorldPlay(世界交互)框架,将流式视频扩散模型与长效一致性技术深度融合。核心突破在于通过双重动作表征…

张小明 2026/1/9 17:42:12 网站建设

网站原型是以下哪层设计的结果qq空间可以做网站吗

PyTorch-CUDA-v2.7 镜像中集成 Gradio 构建高效交互式 AI 应用 在深度学习项目从实验走向落地的过程中,一个常见的痛点是:模型跑通了,却没人能方便地试用。研究人员在 Jupyter 里验证完效果,想让产品经理或业务方体验一下&#x…

张小明 2026/1/9 17:51:00 网站建设

手机自适应的网站怎么做北京网站设计与网站制作

第一章:企业法务智能化转型的必然趋势在数字化浪潮席卷各行各业的当下,企业法务部门正面临前所未有的变革压力。传统依赖人工审阅、经验判断和纸质流程的法务管理模式,已难以应对日益复杂的合规环境、快速增长的合同体量以及瞬息万变的监管要…

张小明 2026/1/9 19:13:10 网站建设

开县集团网站建设网站域名到期叫

终极指南:5步实现PyTorch模型到Apple芯片的300%性能飞跃 【免费下载链接】mlx-examples 在 MLX 框架中的示例。 项目地址: https://gitcode.com/GitHub_Trending/ml/mlx-examples 还在为模型部署时的性能瓶颈和兼容性问题而烦恼吗?本文将带你深入…

张小明 2026/1/9 19:41:57 网站建设

大学生网站设计做电子手环网站需求分析

PaddlePaddle跨平台迁移注意事项:Linux与Windows差异 在深度学习项目从开发到部署的链条中,一个常见的场景是:工程师在Windows本地完成模型训练和调试,随后将代码与模型迁移到Linux服务器上进行生产化部署。这种“Windows开发 L…

张小明 2026/1/9 20:06:43 网站建设