韩国平面设计网站做网站上的图片如何设定分辨率-贵港市网站建设公司-Seo优化

韩国平面设计网站,做网站上的图片如何设定分辨率,个人网络销售平台,网站建设的域名亮点直击首创“帧链”#xff08;Chain-of-Frames#xff09;范式#xff1a;借鉴 CoT 思维#xff0c;强制模型先预测编辑区域#xff0c;再生成目标视频#xff0c;实现了从“模糊指令”到“精准区域”的显式映射。极高的数据效率#xff1a;仅使用 50k 视频对进行微调…亮点直击首创“帧链”Chain-of-Frames范式借鉴 CoT 思维强制模型先预测编辑区域再生成目标视频实现了从“模糊指令”到“精准区域”的显式映射。极高的数据效率仅使用 50k 视频对进行微调就在指令遵循和成功率上超越了经过百万级数据训练的 SOTA 模型。Infinite 长视频外推能力独特的 RoPE 对齐策略解决了长视频位置编码失效问题支持处理训练长度 4 倍以上的视频且无任何故障。全能编辑表现在 VideoCoF-Bench 中无论是多实例移除、添加、替换还是局部风格迁移均取得了最佳的定量和定性结果。在视频生成领域如何精准地按照人类指令编辑视频一直是个难题。现有的方法要么依赖复杂的 Mask掩码导致无法统一模型要么虽然统一但缺乏空间定位能力导致编辑“指鹿为马”。近日来自悉尼科技大学UTS和浙江大学的研究团队提出了一种全新的解决方案——VideoCoF。受到大语言模型中“思维链”Chain-of-Thought的启发他们提出了“帧链”Chain-of-Frames机制强制视频扩散模型在生成编辑结果前先“看”原视频再“推理”出编辑区域最后执行“编辑”。这种“看 - 推理 - 编辑”的新范式不仅摆脱了人工 Mask 的依赖还极大地提升了编辑的精准度。在数据效率上VideoCoF 仅使用了50k5万训练数据就超越了使用百万级数据训练的基线模型论文标题 Unified Video Editing with Temporal Reasoner论文链接 https://arxiv.org/abs/2512.07469项目主页 https://videocof.github.io/代码仓库 https://github.com/knightyxp/VideoCoF总结速览解决的问题精度与统一性的两难困境现有的专家模型依赖掩码精度高但模型无法统一而统一的上下文模型虽然架构简洁但缺乏显式的空间提示导致指令与区域映射微弱定位不准。长视频外推能力缺失现有模型通常难以处理超出训练时长的视频简单的时序拼接会导致位置编码失效产生运动错位或伪影。提出的方案VideoCoF 框架提出了一种受思维链CoT启发的“帧链”Chain-of-Frames方法将视频编辑重构为“看 - 推理 - 编辑”的串行过程。显式推理机制强制视频扩散模型在生成目标视频之前不同于ChronoEdit等隐式的采用reasoning token的方式(无ground truth的reason token)VideoCoF先预测代表编辑区域的“推理 Token”推理帧从而实现无掩码的精准编辑。应用的技术灰度渐变推理帧通过实验发现使用渐变透明度的灰色高亮区域作为推理帧比纯黑掩码或红框更能有效引导模型进行空间推理。RoPE 对齐与外推策略设计了一种特殊的旋转位置编码RoPE重置策略推理帧索引固定为 0源/目标视频索引为 1-F解决了索引冲突支持模型在推理时处理 4 倍于训练长度的视频。多实例数据生成管线利用 Qwen-VL、Grounding-SAM2 和 VACE 等工具构建了包含 50k 高质量多实例编辑三元组的数据集。达到的效果高效率下的 SOTA 性能相比于使用 1M 视频预训练外加 150k 微调数据的强力基线如 ICVEVideoCoF 仅需 50k 视频对微调指令遵循得分即达到 8.97提升 15.14%成功率高达 76.36%提升 18.6%。完美的长度泛化模型仅在 33 帧上训练即可流畅推理 141 帧以上的长视频且保持出色的运动一致性。全能统一的编辑范式实现了基于“帧链”方式的统一无 Mask 视频编辑涵盖实例级Instance和局部级Part-level的对象移除、添加、交换及局部风格转换。该范式具有极强的灵活性可进一步拓展至全局风格化Global Style和 ID 驱动编辑等任务。完全开源与极速推理目前模型权重、代码已全部开源训练数据将在本周开源结果可复现。在 DMD LoRA 的加持下模型仅需 4 步采样即可完成生成实现 20-30 秒编辑一条高清视频的极速体验。方法详解Chain of Frames (CoF)让生成模型先“思考”VideoCoF 的核心架构基于标准的 Video DiTDiffusion Transformer。与以往简单地将“源视频”和“噪声目标视频”拼接不同VideoCoF 在中间插入了推理帧Reasoning Frames。输入序列源视频 || 推理帧 || 目标视频。推理帧的形式研究发现使用渐变灰度高亮Gray Highlight作为推理帧的效果最好。这不仅标出了编辑区域还充当了从源视频到目标视频的视觉过渡。核心逻辑模型被要求在生成最终视频前必须先预测出“在哪里修”。这种显式的推理过程迫使模型深度理解文本指令与空间区域的对应关系。RoPE 对齐策略打破长度限制在传统的上下文学习中简单的时间索引排列会导致模型过拟合于固定长度无法处理长视频。VideoCoF 提出了一种巧妙的索引重置策略源视频与目标视频索引统一设为 1 到 F确保二者在时间特征上完美对齐。推理帧索引固定为 0。这种设计将推理帧作为空间锚点隔离在时间轴之外既能提供精准的空间指引又不会干扰视频的运动结构。这使得模型即便在 33 帧的短视频上训练也能完美泛化到 141 帧甚至更长的视频。训练与推理范式高效且极速VideoCoF 在训练和推理流程上进行了深度优化确保了生成质量与速度的平衡训练范式模型采用Flow matching训练预测推理编辑帧的velocity field作为优化目标。在训练过程中系统将源视频、推理帧和编辑视频拼接成统一序列但仅对推理帧和编辑视频部分进行加噪处理和监督。源视频全程保持“clean”状态作为强大的上下文条件引导生成。推理范式推理时源视频的 Latent 特征被固定而推理帧和编辑部分从随机高斯噪声开始。通过 ODE 求解器模型逐步将噪声转化为清晰的画面。极速生成得益于 DMD LoRA 技术的加持VideoCoF 实现了极高的采样效率。原本复杂的编辑任务现在仅需 4 步4 Steps 采样即可完成单条视频的编辑时间缩短至 20-30 秒(H100上)真正实现了即时反馈。数据构建高质量多实例数据为了训练这种具有推理能力的模型团队开发了一套自动化数据生产管线流程利用 Qwen-VL 进行实例识别Grounding-SAM2 进行精准分割利用GPT-4o想象合理并diverse的编辑prompt, 再配合 VACE-14B 生成object替换/局部风格替换的编辑视频 MiniMax-Remover来生成object 添加/移除的编辑视频。规模pipeline在合成了包含移除、添加、交换局部风格替换等任务的高质量三元组数据还进一步根据dover score和vie score来筛选高质量合成数据样本最终精选出 50k 核心样本涵盖了大量复杂的空间关系和多物体交互场景。实验结果性能对比小数据大胜出在 VideoCoF-Bench 上VideoCoF 与 InsV2V、Señorita、VACE、ICVE同期工作等进行了对比。指令遵循Instruct FollowVideoCoF 得分 8.97远超 ICVE 的 7.79。成功率Success Ratio高达 76.36%比第二名高出近 20 个百分点。数据量VideoCoF 仅微调了 50k 数据而 ICVE 预训练了 1M 数据并微调了 150k 数据。这证明了“帧链”范式的极高效率。可视化展示无论是移除画面右侧的特定人物、在洗衣机里添加一个小女孩还是去推理哪个碗更大并且变得更白和光亮VideoCoF 都能精准定位并自然融合。消融实验图表与数据背后的真相引入推理帧 (Reasoning Frames) 的核心增益请看 Table 2 中 Naive Temporal in Context 与 VideoCoF 的对比量化提升引入 CoF 设计后指令遵循分数Instruct Follow从 8.109 飙升至 8.973成功率Success Ratio从 72.41% 提升至 76.36%。视觉实证在右图中左侧不带推理帧指令是需要模型删除右边的人但删除错误删除了左边的人而右图带推理帧通过先预测灰度掩码精准锁定了编辑区域右侧穿绿色衣服的人使得后续的编辑帧Editing能完美继承推理帧的编辑区域实现精准的多实例级别的移除。Repeat RoPE 策略对齐运动与无限外推结合 Table 2 和 figure8 和右侧gif图来看 RoPE 设计的决定性作用解决索引冲突在 figure 8 中中间行的 Naive Reset 策略 [0-F-1, 0, 0-F-1] 导致推理帧索引0与编辑帧索引0冲突产生了伪影。而 VideoCoF 采用的 [1-F, 0, 1-F] 策略第三行将推理帧索引固定为 0源/目标视频索引设为 1-F。这种“错位对齐”让推理帧只提供空间信息不干扰时间轴从而完美修复了运动错位。无限长度外推在右侧gif动图中。在 Exploration Duration长视频推理测试中Naive 方法左下生成的火焰头发出现了严重的面部崩坏和伪影而 Our RoPE Alignment右下在超出训练长度的情况下依然保持了人脸的清晰度和火焰的自然流动。数据佐证Table 2 显示该策略下的 DINO 分数达到最高的 0.9913证明了结构一致性的显著提升。推理帧格式 (Reasoning Format)渐变灰的胜利请看 Table 3 和 Figure 9 关于掩码格式的直观对比视觉对比Black Background黑背景模型没删掉左边的人Red FG红高亮虽然识别了区域但边缘生硬同时无法合理移除最左边的女人。Gray FG渐变灰最右侧的 Gray (0~75% Alpha) 展现了完美的移除效果。渐变透明度就像一层“幽灵”遮罩不仅指示了位置还充当了从“有”到“无”的柔性视觉过渡。数据碾压Table 3 显示渐变灰格式的 Instruct Follow 高达 8.973远超黑背景的 7.512 和红高亮的 7.805成功率更是从 52.17% 暴涨至 76.36%。推理帧数量 (Number of Frames)寻找“黄金平衡点”请关注 Table 4中的数据趋势数据拐点实验测试了 1 到 5 帧推理帧。可以看到随着帧数增加性能稳步提升在 4 Frames 时达到顶峰Instruct Follow 8.973, Success Ratio 76.36%。过犹不及一旦增加到 5 帧成功率断崖式下跌至 29.06%。这说明 4 帧对应 1 个 Latent Frame是信息量与计算复杂度的最佳平衡点过多的推理帧反而会引入噪声干扰生成。Temporal 三连图 Prompt (Triptych Prompt)提示词的魔法最后看 Table 5 和 Figure 10Prompt 结构图10展示了特定的 Prompt 写法“A video sequence showing three parts: first the original scene, then grounded... and finally the same scene but...”。这种结构强行让模型在时序上理解“原片-推理-成片”的逻辑。效果对比(b)w/o Triptych第三列的图将T恤衫换成蓝色时抹除了文字并且蓝色诡异添加的男人位置错误十分不合理(a)w/ Triptych左下角的图在三连图 Prompt 引导下衣服换成蓝色的同时完美的保留了文字添加的男子西装笔挺、胡须清晰并且位置合理与“wear a dark suit with a beard”的指令完美契合。量化提升Table 5 显示加上这句 Prompt指令遵循分从 8.064 提升至 8.973证明了这种结构化提示对激活模型推理能力的巨大价值。总结VideoCoF 的提出打破了视频编辑领域长期存在的“精度 vs 统一性”僵局。通过引入帧链的推理机制Chain-of-FramesVideoCoF 证明了让模型先“看懂”再“动手”是提升编辑质量的关键。更令人振奋的是VideoCoF 展现出的极高数据效率50k data和长视频泛化能力为未来开发更通用、更低成本的视频编辑大模型指明了方向。也许在不久的将来我们每个人都能用一句话像修图一样轻松地修改长电影片段。论文与代码链接Paper: https://arxiv.org/abs/2512.07469Project: https://videocof.github.io/Code: https://github.com/knightyxp/VideoCoF (模型代码均已开源4步编辑一条视频训练数据VideoCoF-50k本周内开源 Demo: https://huggingface.co/spaces/XiangpengYang/VideoCoF (20s/条4步生成编辑视频参考文献[1] Unified Video Editing with Temporal Reasoner

韩国平面设计网站做网站上的图片如何设定分辨率

网站内容管理软件广州app制作开发

做的新网站网上搜不到多个wordpress

淘宝做导航网站好seo是什么技术

网站推广怎样做下载建网站

企业网站搭建多少钱大理如何做百度的网站

app与网站wordpress 充值插件