国内做的好的电商网站有哪些建设银行银行官网网站-贵港市网站建设公司-Seo优化

国内做的好的电商网站有哪些,建设银行银行官网网站,做造价在哪个网站查价格,宜昌做网站优化Day 15: 图像分割 (Image Segmentation)摘要#xff1a;如果说目标检测是给物体画框#xff0c;那么图像分割就是把物体从背景中“抠”出来。它是计算机视觉中像素级别的分类任务。本文将带你从语义分割的开山之作 FCN 出发#xff0c;深入 U-Net 和 DeepLab 细节#xff0…Day 15: 图像分割 (Image Segmentation)摘要如果说目标检测是给物体画框那么图像分割就是把物体从背景中“抠”出来。它是计算机视觉中像素级别的分类任务。本文将带你从语义分割的开山之作 FCN 出发深入 U-Net 和 DeepLab 细节解析实例分割王者 Mask R-CNN最后领略分割领域的 GPT——Segment Anything Model (SAM) 的风采。1. 分割任务全家桶在深入模型之前我们需要先分清三个容易混淆的概念任务类型英文核心逻辑例子语义分割Semantic Segmentation只管类别不管个体。所有“人”都是红色所有“车”都是蓝色。自动驾驶中区分路面、天空、车辆。实例分割Instance Segmentation既管类别也管个体。张三是红色李四是绿色虽然他们都是“人”。机器人抓取特定物体。全景分割Panoptic Segmentation语义实例。背景天空、草地做语义分割前景人、车做实例分割。统一的场景理解。2. 语义分割从 FCN 到 DeepLab2.1 FCN (Fully Convolutional Networks) - 全卷积网络FCN 是深度学习做语义分割的开山鼻祖CVPR 2015。核心思想把分类网络如 VGG最后的全连接层FC丢掉换成卷积层。为什么全连接层会丢失空间信息且限制输入图片尺寸。全卷积网络可以接受任意尺寸输入并输出一张“热力图”。上采样 (Upsampling)卷积会让图片越来越小下采样分割需要输出原图大小。FCN 使用转置卷积 (Transposed Conv)把特征图放大回去。2.2 U-Net - 医学影像的霸主U-Net 的结构非常优美像一个“U”字。结构左边是收缩路径Encoder提取特征右边是扩张路径Decoder恢复尺寸。关键创新跳跃连接 (Skip Connections)。原理深层特征语义强但位置模糊浅层特征语义弱但边缘清晰。U-Net 把左边的浅层特征直接Concat (拼接)到右边对应的层。Concat vs AddU-Net 用 Concat意味着“我全都要”。左边的细节特征和右边的语义特征并排放在一起让后续卷积层自己去选择用谁。这对于保留精细边缘至关重要。ResNet/FPN 用 Add意味着“修正/增强”。在原有特征基础上叠加信息。FPN 使用 Add 主要是为了保持通道数一致以便共享检测头且做多尺度特征融合。2.3 DeepLab 系列 - 引入空洞卷积Google 的 DeepLab 系列主要解决了两个问题下采样导致分辨率丢失普通 CNN 也是一路池化细节丢光了。多尺度问题物体有大有小。解决方案空洞卷积 (Atrous/Dilated Convolution)比喻普通卷积像实心的九宫格印章只能盖住一小块。空洞卷积是把九宫格拉开中间留空。作用不池化也能看清大范围。在不降低分辨率不缩小图片的情况下大幅扩大感受野。ASPP (Atrous Spatial Pyramid Pooling)比喻多倍镜同时拍摄。原理并行使用不同膨胀率Rate6, 12, 18的空洞卷积去提取特征然后融合。效果Rate6 关注小物体近景Rate18 关注大物体远景最后合在一起大物体小物体一网打尽。3. 实例分割Mask R-CNNMask R-CNN (ICCV 2017 Best Paper) 是 Faster R-CNN 的完美进化。思路检测分割。先找出框再在框里做分割。结构Faster R-CNN Mask 分支。Class Head是什么Box Head在哪Mask Head像素掩码是什么新增分支关键技术RoI AlignFaster R-CNN 使用 RoI Pooling 把框内的特征变成固定大小这涉及到取整操作Quantization。问题对于分类差几个像素没关系但对于分割几个像素的错位就是灾难Mask 和原图对不齐。解决RoI Align取消了取整使用双线性插值来计算特征值实现了像素级的对齐。4. 分割大模型SAM (Segment Anything)2023年 Meta 发布的 SAM被誉为计算机视觉领域的 GPT-3 时刻。4.1 核心范式Mask Prediction (非 NTP)LLM 是 NTP (Next Token Prediction) 范式像贪吃蛇一样逐词预测。SAM 是 Mask Prediction 范式类似于 DETR。它收到提示后一次性并行输出完整的掩码矩阵而不是逐像素生成。4.2 架构解析轻重分离SAM 的设计兼顾了性能和效率主要由三部分组成Image Encoder (重型)基于ViT-H (Vision Transformer)。作用把图片变成特征向量 (Embedding)。特点只算一次。不管后续如何交互这张图的特征只算一遍耗时较长但可复用。Prompt Encoder (轻量)作用把用户的各种提示变成向量。Mask Decoder (超轻量)作用结合图像特征和提示特征毫秒级输出 Mask。这是实现实时交互的关键。4.3 提示词 (Prompt) 的魔法如何输入SAM 把物理世界的交互统统变成了数学向量点 (Point) 框 (Box)不是直接输坐标数字而是通过位置编码 (Positional Encoding)。类似于 Transformer 处理序列位置的方式把(x,y)(x,y)(x,y)映射为高维向量作为 “Token” 拼接到输入序列中。掩码 (Mask)如果上一轮预测了一个粗糙的 Mask或者用户画了一笔这个二维图像会经过一个CNN下采样然后直接相加 (Add)到 Image Embedding 上作为背景特征的一部分。文本 (Text)通过 CLIP 文本编码器变成向量。4.4 输出与后处理输出内容SAM 输出的是Mask (掩码矩阵)即由 0 和 1 组成的黑白图。如何抠图需要进行后处理用 Mask 与原图做点乘 (Element-wise Product)才能得到去除了背景的 RGBA 图像。意义SAM 解决了一个根本痛点——标注数据太贵。SAM 拥有强大的零样本 (Zero-shot) 能力它可以作为通用的预处理工具大大降低了下游任务的门槛。5. 代码实践PyTorch 实现简易 U-Netimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFclassDoubleConv(nn.Module):(convolution [BN] ReLU) * 2def__init__(self,in_channels,out_channels):super().__init__()self.double_convnn.Sequential(nn.Conv2d(in_channels,out_channels,kernel_size3,padding1),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue),nn.Conv2d(out_channels,out_channels,kernel_size3,padding1),nn.BatchNorm2d(out_channels),nn.ReLU(inplaceTrue))defforward(self,x):returnself.double_conv(x)classUNet(nn.Module):def__init__(self,n_channels,n_classes):super(UNet,self).__init__()self.n_channelsn_channels self.n_classesn_classes# Encoder (Downsampling)self.incDoubleConv(n_channels,64)self.down1DoubleConv(64,128)self.down2DoubleConv(128,256)self.down3DoubleConv(256,512)self.down4DoubleConv(512,1024)# MaxPoolself.poolnn.MaxPool2d(2)# Decoder (Upsampling)self.up1nn.ConvTranspose2d(1024,512,kernel_size2,stride2)self.conv_up1DoubleConv(1024,512)# 512 from up 512 from down3self.up2nn.ConvTranspose2d(512,256,kernel_size2,stride2)self.conv_up2DoubleConv(512,256)self.up3nn.ConvTranspose2d(256,128,kernel_size2,stride2)self.conv_up3DoubleConv(256,128)self.up4nn.ConvTranspose2d(128,64,kernel_size2,stride2)self.conv_up4DoubleConv(128,64)# Output layerself.outcnn.Conv2d(64,n_classes,kernel_size1)defforward(self,x):# Encoderx1self.inc(x)x2self.down1(self.pool(x1))x3self.down2(self.pool(x2))x4self.down3(self.pool(x3))x5self.down4(self.pool(x4))# Decoder with Skip Connectionsxself.up1(x5)# 实际使用中需要处理padding导致的尺寸不一致问题这里简化处理假设尺寸匹配# cat(x, x4)xtorch.cat([x4,x],dim1)xself.conv_up1(x)xself.up2(x)xtorch.cat([x3,x],dim1)xself.conv_up2(x)xself.up3(x)xtorch.cat([x2,x],dim1)xself.conv_up3(x)xself.up4(x)xtorch.cat([x1,x],dim1)xself.conv_up4(x)logitsself.outc(x)returnlogits# 测试模型if__name____main__:modelUNet(n_channels3,n_classes10)# 假设输入图片大小为 160x160 (必须是16的倍数否则concat时尺寸会不匹配)xtorch.randn(1,3,160,160)ymodel(x)print(fInput shape:{x.shape})print(fOutput shape:{y.shape})# Should be [1, 10, 160, 160]6. 总结与思考语义分割FCN 打开了大门DeepLab 用空洞卷积不缩小看清全图和 ASPP多倍镜看细节与轮廓解决了多尺度问题U-Net 用 Concat 跳跃连接保留了极致的边缘细节。实例分割Mask R-CNN 在检测框里做精细分割RoI Align 解决了像素对齐的痛点。大模型时代SAM 引入了 Prompt 机制将点/框/文映射为向量配合轻量级 Mask Decoder实现了“指哪打哪”的通用分割能力。思考为什么 Feature Pyramid Network (FPN) 用 Add 而 U-Net 用 ConcatFPN (检测)追求多尺度特征统一。P3, P4, P5 需要有相同的通道数如256以便共享检测头Add 可以保持通道数不变且类似于 ResNet 起到特征增强的作用。U-Net (分割)追求像素级还原。Concat 可以最大程度保留浅层的空间信息坐标、边缘这对像素分类任务至关重要。

国内做的好的电商网站有哪些建设银行银行官网网站

武城做网站做网站用图片

上海网站设计开发公网站常用英文字体

广东网站建设制作价格低wordpress弹出框

无经验可以做网站编辑吗网站改版的费用

如何创建一个免费的网站河北省住房和城身建设厅网站

导航网站前端模板下载dw软件官网