什么企业需要做网站更换wordpress后台域名

张小明 2025/12/31 11:15:54
什么企业需要做网站,更换wordpress后台域名,泰兴市住房和建设局网站,制作网页的步骤800字在低成本自动驾驶系统中#xff0c;基于视觉信息的 3D 目标检测是一项长期存在的挑战性任务。与依赖激光雷达#xff08;LiDAR#xff09;点云的 3D 目标检测方法不同#xff0c;基于相机的 3D 目标检测需仅从 RGB 图像包含的 2D 信息中生成 3D 边界框预测#xff0c;该问…在低成本自动驾驶系统中基于视觉信息的 3D 目标检测是一项长期存在的挑战性任务。与依赖激光雷达LiDAR点云的 3D 目标检测方法不同基于相机的 3D 目标检测需仅从 RGB 图像包含的 2D 信息中生成 3D 边界框预测该问题本身具有不适定性。原文链接https://arxiv.org/pdf/2110.06922代码链接WangYueFt/detr3d沐小含持续分享前沿算法论文欢迎关注...一、引言1.1 现有方法的局限性现有 3D 目标检测方法主要分为两类但均存在明显缺陷纯 2D 计算方法这类方法如 CenterNet、FCOS3D借助为 2D 任务设计的检测流水线来预测目标姿态、速度等 3D 信息未考虑 3D 场景结构和传感器配置。其需通过多步后处理融合多相机预测结果并去除冗余框导致效率与效果之间存在难以平衡的矛盾。伪激光雷达pseudo-LiDAR方法先利用深度预测网络从相机图像生成场景的伪激光雷达或距离输入再应用 3D 目标检测方法。然而这种方法存在复合误差问题深度估计的不准确性会严重影响后续 3D 检测性能且深度预测模型本身也可能产生误差。1.2 DETR3D 的核心思想为解决上述问题DETR3D 提出了一种在 2D 观测与 3D 预测之间更平滑过渡的框架。该框架以自上而下的方式通过相机变换矩阵的几何反投影将 2D 特征提取与 3D 目标预测紧密关联。其核心优势在于无需依赖密集深度预测模块避免了深度估计误差的累积同时无需非极大值抑制NMS等后处理步骤大幅提升推理速度。在 nuScenes 自动驾驶基准测试中DETR3D 取得了当前最优性能。1.3 论文主要贡献提出了一种简洁的 RGB 图像 3D 目标检测模型在计算的每一层都融合所有相机视图的信息首次将多相机检测转化为 3D 集合到集合set-to-set的预测问题。设计了通过反向几何投影连接 2D 特征提取与 3D 边界框预测的模块不受次级网络深度预测不准确的影响能通过将 3D 信息反投影到所有可用帧无缝利用多相机信息。与 Object DGCNN 类似无需图像级或全局 NMS 等后处理性能与现有基于 NMS 的方法相当且在相机重叠区域性能显著优于其他方法。开源代码为可重复性研究和未来相关方向的探索提供支持。二、相关工作2.1 2D 目标检测2D 目标检测领域经历了从多阶段到单阶段、从锚点依赖到无锚点的发展历程多阶段方法RCNN 开创了深度学习在目标检测中的应用但为每个候选区域单独进行卷积神经网络前向传播速度极慢Fast RCNN 引入共享可学习 CNN单次前向传播处理整幅图像Faster RCNN 新增区域提议网络RPN实现近无成本的区域提议Mask RCNN 添加掩码预测分支支持实例分割。这类方法通常涉及多阶段优化实际应用中速度较慢。单阶段方法SSD 和 YOLO 实现了密集预测速度大幅提升但仍依赖 NMS 去除冗余框且预测基于预定义锚点CenterNet 和 FCOS 转变范式从锚点级预测转向像素级预测显著简化了检测流水线。2.2 基于集合的目标检测DETR首次将目标检测转化为 set-to-set 问题利用 Transformer 捕捉特征与目标间的交互通过学习将预测结果与真实框匹配无需后处理过滤冗余框。但 DETR 存在训练时间长、收敛慢的问题。改进方法Deformable DETR 提出可变形自注意力模块定位特征并加速训练TSP-FCOS 和 TSP-RCNN 针对 DETR 的集合损失和 Transformer 交叉注意力机制导致的慢收敛问题进行优化SparseRCNN 将集合预测融入 RCNN 风格流水线无需 NMS 却优于多阶段目标检测方法OneNet 发现密集型目标检测器在配备最小成本集合损失后可实现无 NMS 检测。3D 领域扩展Object DGCNN 基于点云进行 3D 目标检测将其建模为动态图上的消息传递是一种无 NMS 的 3D 集合预测方法。2.3 单目 3D 目标检测早期单目 3D 检测方法如 Mono3D利用语义和形状线索结合场景约束和先验知识从 3D 候选集中筛选目标部分方法如基于 BEV 的方法通过最小化 2D-3D 投影误差利用 2D 检测结果进行 3D 边界框回归。近年来以 2D 检测器为起点、结合可微分渲染或 3D 关键点检测的方法成为主流但这些方法均局限于单目场景扩展到多相机时需独立处理每帧图像再通过后处理融合输出。三、多视图 3D 目标检测框架DETR3D3.1 整体框架概述DETR3D 的输入为一组已知投影矩阵内参和相对外参组合的相机 RGB 图像输出为场景中目标的 3D 边界框参数集合。其设计遵循三大核心目标在架构中间计算过程中融入 3D 信息而非仅在图像平面进行纯 2D 计算不估计密集 3D 场景几何避免相关重建误差避免 NMS 等后处理步骤。DETR3D 的架构包含三个关键组件如图 1 所示特征提取采用共享 ResNet 骨干网络提取相机图像特征可选通过特征金字塔网络FPN增强特征表达检测头核心组件以几何感知的方式将 2D 特征与 3D 边界框预测关联通过交替进行 2D 和 3D 计算从稀疏目标查询中生成 3D 预测损失计算采用 set-to-set 损失训练网络通过二分匹配bipartite matching对齐预测集合与真实集合。注模型输入为多视图图像经 ResNet 和 FPN 编码后对稀疏目标查询进行处理。每个查询解码为 3D 参考点通过将 3D 参考点投影到图像空间将 2D 特征转化为用于优化目标查询的信息。模型基于每个查询进行预测并采用 set-to-set 损失函数。3.2 特征学习3.2.1 输入定义图像集合由周围相机拍摄得到对应 nuScenes 数据集的 6 个相机左前、前、右前、左后、后、右后相机矩阵包含相机内参和外参真实边界框每个边界框包含鸟瞰图BEV中的位置、尺寸、航向角和速度类别标签。DETR3D 不依赖激光雷达点云仅通过上述输入预测 3D 边界框和类别标签。3.2.2 特征提取流程首先利用 ResNet 骨干网络和 FPN 将 6 幅输入图像编码为 4 组特征图每组特征图对应 6 幅图像的一个尺度特征。多尺度特征能够为不同尺寸的目标识别提供丰富信息后续通过新颖的集合预测模块将这些 2D 特征转化为 3D 特征。3.3 检测头Detection HeadDETR3D 的检测头采用迭代式结构包含L层基于集合的计算用于从 2D 特征图生成边界框估计。与传统自下而上的检测方法不同该自上而下的检测头有效解决了密集边界框预测对深度感知的依赖以及后处理带来的效率问题。3.3.1 检测头核心步骤每层检测头围绕一组目标查询展开输出更新后的目标查询具体步骤如下参考点预测从每个目标查询中解码出 3D 参考点该参考点可视为第i个边界框中心的假设。解码过程通过神经网络实现参考点投影将 3D 参考点转换为齐次坐标表示拼接并通过相机变换矩阵投影到每个相机的图像平面其中是参考点在第m个相机上的投影结果。为消除特征图尺寸的影响并聚合不同尺度的特征将归一化到区间。特征采样与融合通过双线性插值从多尺度、多相机的特征图中采样与参考点对应的特征并根据参考点在相机图像中的可见性筛选有效特征。定义二进制值表示参考点在第个相机的第个尺度特征图上是否可见投影到图像平面外则为无效则采样特征为最终融合后的特征和更新后的目标查询为其中是避免除零的小常数。目标交互建模利用多头自注意力multi-head self-attention捕捉目标间的交互信息进一步优化目标查询。边界框与类别预测通过两个神经网络和分别预测每个目标查询对应的边界框参数和类别标签训练过程中计算每一层预测结果的损失推理时仅使用最后一层的输出。3.4 损失函数DETR3D 采用 set-to-set 损失衡量预测集合与真实集合之间的差异该损失由类别标签的焦点损失focal loss和边界框参数的损失组成。3.4.1 二分匹配由于真实边界框数量M通常小于预测数量先将真实集合用 “无目标”填充至个。通过二分匹配问题建立预测与真实框的对应关系其中表示排列集合是索引为的预测结果属于类别的概率是边界框参数的损失。采用匈牙利算法求解该分配问题。3.4.2 最终损失set-to-set 损失的最终表达式为四、实验4.1 实验设置4.1.1 数据集实验基于 nuScenes 数据集该数据集包含 1000 个序列每个序列约 20 秒采样率为 20 帧 / 秒。每个样本包含 6 个相机的图像提供内参和外参信息。数据集按 28k训练集、6k验证集、6k测试集的比例划分选取 23 个类别中的 10 个用于计算评估指标。4.1.2 评估指标遵循 nuScenes 官方评估协议采用以下指标真实阳性指标TP metrics平均平移误差ATE、平均尺度误差ASE、平均方向误差AOE、平均速度误差AVE、平均属性误差AAE均以物理单位计算平均精度mAP综合指标nuScenes 检测分数NDS计算方式为4.1.3 模型配置与训练细节模型结构ResNet101 作为特征提取器第 3、4 阶段采用可变形卷积FPN 生成 4 个尺度输入图像的 1/8、1/16、1/32、1/64的特征图检测头包含 6 层隐藏维度为 256边界框和类别预测子网各包含两个隐藏维度为 256 的全连接层检测头中使用层归一化LayerNorm。训练参数采用 AdamW 优化器权重衰减为初始学习率为在第 8 和 11 个 epoch 分别降至和总训练轮次为 12 个 epoch使用 8 块 RTX 3090 GPU单 GPU 批次大小为 1训练时间约 18 小时。推理无需 NMS 等后处理使用 nuScenes 评估工具包进行评估。4.2 与现有方法的对比验证集表 1 展示了 DETR3D 与当前主流方法在验证集上的性能对比。可以看出即使不使用 NMS 后处理DETR3D 的基础版本DETR3D (Ours)NDS 达到 0.374与使用 NMS 的 FCOS3D0.373相当经过初始化优化基于 FCOS3D 骨干网络检测头随机初始化的版本DETR3D (Ours) †NDS 提升至 0.425超过所有对比方法结合类别平衡分组采样CBGS训练的版本DETR3D (Ours) #NDS 进一步提升至 0.434mAP 达到 0.349DETR3D 在 mAVE 指标上表现突出0.842显著优于其他方法表明其在速度预测方面的优势但 mATE 指标0.716与直接预测边界框深度的 FCOS3D 相当推测原因是 FCOS3D 对目标平移具有更强的监督信号且采用解耦头预测不同边界框参数。注∗: CenterNet 使用定制骨干网络 DLA‡: 模型以深度权重 1.0 训练从深度权重 0.2 的 FCOS3D checkpoint 初始化§: 采用测试时增强¶: 采用测试时增强、更多 epoch 和模型集成†: 模型从 FCOS3D 骨干网络初始化检测头随机初始化#: 采用 CBGS 训练。4.3 与现有方法的对比测试集表 2 展示了 DETR3D 与测试集排行榜上前沿方法的对比。截至 2021 年 10 月 13 日DETR3D基于 DD3D checkpoint 初始化的 NDS 达到 0.479超过所有现有方法其中 mAVE 指标0.845显著优于 DD3D1.014证明其在多视图信息融合和 3D 预测方面的优越性。注#: 从 DD3D checkpoint 初始化†: 从额外数据预训练的骨干网络初始化。4.4 相机重叠区域的性能对比相机重叠区域的目标更容易被截断是多视图检测的一大挑战。FCOS3D 等方法对每个相机单独预测边界框而 DETR3D 同时考虑所有相机信息。实验选取 3D 中心可见于多个相机的边界框验证集中共 18,147 个占总数的 9.7%进行评估结果如表 3 所示。DETR3D 在重叠区域的 NDS 分数显著优于 FCOS3D证明其集成预测方法更有效。注‡: 模型以深度权重 1.0 训练从深度权重 0.2 的 FCOS3D checkpoint 初始化†: 模型从 FCOS3D 骨干网络初始化检测头随机初始化。4.5 与伪激光雷达方法的对比为验证 DETR3D 相比显式深度预测方法的优势实验构建了伪激光雷达基线方法使用预训练的 PackNet 网络预测 6 个相机的密集深度图通过相机变换将深度图转换为点云再采用 CenterPoint 架构进行 3D 检测。表 4 结果显示即使使用当前最优的深度预测模型伪激光雷达方法的性能仍显著低于 DETR3D。原因在于伪激光雷达方法受深度预测不准确带来的复合误差影响且深度预测模型易过拟合训练数据泛化能力差。4.6 消融实验与分析4.6.1 迭代优化的影响表 5 展示了不同检测头层数对性能的影响。随着层数增加模型性能逐步提升在第 5 层最后一层达到最优NDS0.425mAP0.346。图 2 可视化了各层目标查询优化后的边界框预测结果深层网络的预测更接近真实框证明迭代优化对充分发挥架构优势至关重要。注在 BEV 视角下可视化边界框并叠加激光雷达点云。随着网络层数加深预测结果逐渐接近真实框。4.6.2 目标查询数量的影响表 6 展示了不同目标查询数量对性能的影响。随着查询数量增加mAP 和 NDS 逐步提升在 900 个查询时达到饱和mAP0.346NDS0.425继续增加查询数量性能无明显提升甚至略有下降。这一结果为模型参数选择提供了参考。4.6.3 骨干网络的影响表 7 对比了不同骨干网络对 DETR3D 性能的影响。ResNet101 作为骨干网络时性能最优NDS0.425mAP0.346优于 ResNet50 和 DLA34表明更强大的特征提取能力有助于提升 3D 检测性能。4.6.4 定性结果图 3 展示了 DETR3D 在 BEV 视角和 6 个相机图像视角下的预测结果。模型能够检测到相对较小的目标甚至部分未标注的目标如左后相机中的车辆。但定性结果也反映出模型仍存在一定的平移误差这与定量实验中 mATE 指标的表现一致表明深度估计仍是该问题的核心挑战即使 DETR3D 避免了显式深度预测。注预测结果Prediction与真实框Ground-truth对比模型能检测到小型目标但部分远距离目标如前相机中的远处车辆未被检测到。五、结论与未来展望5.1 结论DETR3D 提出了一种新的范式来解决从 2D 图像恢复 3D 信息的不适定逆问题。与仅依赖 2D 计算或通过额外深度网络重建场景的方法不同DETR3D 在 3D 空间中运作通过反向投影按需检索图像特征。该方法的优势体现在两方面一是消除了对中间表示如预测深度图或点云的依赖避免了复合误差二是通过将同一 3D 点投影到所有可用帧充分利用多相机信息。5.2 未来研究方向扩展感受野当前单个点投影在检索图像特征时感受野有限未来可通过为每个目标查询采样多个点整合更多信息用于目标优化。多模态融合检测头具有输入无关性未来可融合激光雷达、雷达RADAR等其他模态数据提升性能和鲁棒性。领域扩展将该框架推广到室内导航、目标操作等其他领域扩大其应用范围并探索进一步改进的方向。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

模板建站邯郸同城

YOLOv8 C部署:OpenCV DNN实现V5/V7/V8 在工业视觉、智能监控和自动驾驶等实时系统中,目标检测模型的推理速度与部署灵活性至关重要。尽管深度学习框架如 PyTorch 提供了强大的训练能力,但生产环境往往要求更低延迟、更高稳定性的原生代码集成…

张小明 2025/12/30 5:52:13 网站建设

打代码怎么做网站做微站比较好的网站

3分钟掌握语音魔法:Chatterbox TTS零样本合成完全攻略 【免费下载链接】chatterbox 项目地址: https://ai.gitcode.com/hf_mirrors/ResembleAI/chatterbox 当你的配音师突然请假... "李总,配音师发烧了,明天要上线的多语言产品…

张小明 2025/12/30 5:51:39 网站建设

深圳网站建设top0284s店网站模板

明日方舟UI定制完整指南:从零开始打造专属游戏界面 【免费下载链接】arknights-ui H5 复刻版明日方舟游戏主界面 项目地址: https://gitcode.com/gh_mirrors/ar/arknights-ui 想要为《明日方舟》打造个性化的游戏界面体验吗?本教程将带您深入了解…

张小明 2025/12/30 5:51:05 网站建设

国际商业网站沈阳男科医院女医生

Dify平台如何实现用户反馈闭环?bad case收集与改进机制 在企业纷纷将大语言模型(LLM)应用于客服问答、知识助手和内容生成的今天,一个现实问题日益凸显:模型输出不可控。用户可能收到逻辑混乱的回答、过时信息甚至完全…

张小明 2025/12/30 5:50:30 网站建设

博客优化网站seo怎么写免费的网站域名查询

Vue 开发者必看:3 步搞定 dart-sass 替换 node-sass(告别编译慢 Vue 开发者必看:3 步搞定 dart-sass 替换 node-sass(告别编译慢 兼容坑)引言:为什么我们要和 node-sass 说拜拜技术背景速览:s…

张小明 2025/12/30 5:49:55 网站建设

允许个人做动漫网站吗微信小程序的特点

3分钟搞定前端性能优化:esbuild代码分割与树摇终极指南 【免费下载链接】esbuild An extremely fast bundler for the web 项目地址: https://gitcode.com/GitHub_Trending/es/esbuild 你是否曾为前端应用的加载速度而苦恼?当用户面对白屏等待数秒…

张小明 2025/12/30 5:49:21 网站建设