网站开发要什么建设银行么官方网站

张小明 2026/1/10 0:02:56
网站开发要什么,建设银行么官方网站,设计做任务的网站,安徽合肥建筑公司Day 13: 图像分类与 Vision Transformer (ViT) 摘要#xff1a;2020年#xff0c;一张名为 “An Image is Worth 16x16 Words” 的论文让计算机视觉圈炸开了锅。Vision Transformer (ViT) 证明了不依赖卷积#xff0c;纯 Transformer 也能在图像分类上取得 SOTA 效果。本文将…Day 13: 图像分类与 Vision Transformer (ViT)摘要2020年一张名为 “An Image is Worth 16x16 Words” 的论文让计算机视觉圈炸开了锅。Vision Transformer (ViT) 证明了不依赖卷积纯 Transformer 也能在图像分类上取得 SOTA 效果。本文将深入拆解 ViT 及其进化版 Swin Transformer并介绍 MixUp、CutMix 等现代数据增强技术。1. Vision Transformer (ViT)在 ViT 之前CV 是 CNN 的天下ResNet, EfficientNet。ViT 的核心思想是把图片当成一种特殊的“语言”序列。1.1 “An Image is Worth 16x16 Words”Transformer 需要序列作为输入。ViT 的做法简单粗暴切块 (Patch Partition)把一张224 × 224 224 \times 224224×224的图片切成16 × 16 16 \times 1616×16大小的小方块。总共有( 224 / 16 ) × ( 224 / 16 ) 14 × 14 196 (224/16) \times (224/16) 14 \times 14 196(224/16)×(224/16)14×14196个方块Patch。拉平 (Flatten)每个方块展平成一个向量。线性映射 (Linear Projection)用一个全连接层把这些向量映射到 Transformer 的维度如 768。位置编码 (Positional Embedding)给这 196 个向量加上位置信息0, 1, 2…。Class Token在序列最前面加一个特殊的可学习向量[CLS]。Transformer 输出时只取这个[CLS]对应的输出向量去做分类。1.2 ViT vs CNN归纳偏置 (Inductive Bias)CNN天生假设“局部性”像素和周围相关和“平移等变性”猫在左上和右下是一样的。这也是 CNN 训练快的原因。ViT没有这些假设。它一开始什么都不知道必须通过海量数据如 JFT-300M去自己学习像素之间的关系。结论数据量小用 CNN数据量超级大用 ViT。2. Swin TransformerViT 虽然强但有两个缺陷计算量大Global Attention 的复杂度是序列长度的平方O ( N 2 ) O(N^2)O(N2)。图片分辨率一高如 1000x1000Token 数爆炸显存直接撑爆。缺乏多尺度ViT 直上直下没有像 CNN 那样“先看细节再看整体”的层次感。Swin Transformer(Hierarchical Vision Transformer) 借鉴了 CNN 的思想2.1 窗口注意力 (Window Attention)ViT 的痛点像开全员大会。1000 个人像素每个人都要和另外 999 个人握手。效率极低。Swin 的策略像分小组讨论。把图划分成很多个 7x7 的小窗口。Attention 只在窗口内部算。效果复杂度从O ( N 2 ) O(N^2)O(N2)降到了O ( N ) O(N)O(N)。2.2 移动窗口 (Shifted Window)问题小组之间没有交流信息闭塞。策略换座位Layer 1按正常分组。Layer 2移动分组界线Shift。比如把原来 A 组的一半人和 B 组的一半人拼成新组。效果多搞几轮每个人都能间接地和所有人交流了。既保留了局部的高效又实现了全局信息的流通。3. 现代数据增强 (Data Augmentation)ViT 这种“数据饥渴”的模型非常依赖强力的数据增强来防止过拟合。3.1 MixUp简单粗暴地把两张图按比例混合。Input:λ × Cat ( 1 − λ ) × Dog \lambda \times \text{Cat} (1-\lambda) \times \text{Dog}λ×Cat(1−λ)×DogLabel:λ × [ 1 , 0 ] ( 1 − λ ) × [ 0 , 1 ] \lambda \times [1, 0] (1-\lambda) \times [0, 1]λ×[1,0](1−λ)×[0,1]为什么这么做现实中虽然没有“半猫半狗”但这种训练能平滑决策边界。它强迫模型理解“特征变了一点点结果也应该只变一点点”而不是非黑即白。这让模型更稳健不易过拟合。必要性ViT 缺乏归纳偏置极易过拟合所以比 CNN 更依赖这种强力数据增强。3.2 CutMix剪切粘贴。在图片 A 上随机挖个框把图片 B 的对应区域填进去。标签也按面积比例混合。比 MixUp 更自然因为像素值没有失真保留了局部纹理。4. 知识蒸馏 (Knowledge Distillation)在分类任务中我们常想把大模型Teacher的能力传给小模型Student。Hard Label: 真实标签One-hot。Soft Label: Teacher 输出的概率分布比如猫0.8狗0.15车0.05。原理Soft Label 包含了暗知识Dark Knowledge。比如 Teacher 认为“这张图虽然是猫但长得有点像狗”。这种信息能帮 Student 更好地泛化。5. 代码实践MixUp 实现importtorchimportnumpyasnpdefmixup_data(x,y,alpha1.0):Returns mixed inputs, pairs of targets, and lambdaifalpha0:# Beta分布采样 lambdalamnp.random.beta(alpha,alpha)else:lam1batch_sizex.size(0)# 随机生成乱序索引indextorch.randperm(batch_size).to(x.device)# 混合 Inputmixed_xlam*x(1-lam)*x[index]# 返回: 混合后的图, 原始标签,乱序标签, 混合比例returnmixed_x,y,y[index],lamdefmixup_criterion(criterion,pred,y_a,y_b,lam):计算混合后的 Lossreturnlam*criterion(pred,y_a)(1-lam)*criterion(pred,y_b)# 训练循环中使用# inputs, targets data# inputs, targets_a, targets_b, lam mixup_data(inputs, targets)# outputs model(inputs)# loss mixup_criterion(criterion, outputs, targets_a, targets_b, lam)# loss.backward()6. 总结ViT打破了 CV 和 NLP 的壁垒证明了 Transformer 的通用性。Swin Transformer引入了 CNN 的层次化和局部性设计成为了目前 CV 任务的通用骨干。MixUp/CutMix是训练高性能 ViT 的必备良药。掌握了这些你就不再局限于 ResNet而是进入了 CV 的 Transformer 时代。参考资料An Image is Worth 16x16 Words (ViT Paper)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

建设视频网站多少钱网站开发都需要学什么

本章节主要讲解“JMeter执行顺序与作用域”的内容,类似于运算符或操作符的优先级,当JMeter测试中包含多个不同的元素时,哪些元素先执行,哪些元素后执行,并不是严格按照它们出现的先后顺序依次有序执行的,而…

张小明 2026/1/9 8:24:16 网站建设

网站前端设计软件链接转换短网址

据《上市公司信息披露管理办法》,上市公司作为信息披露义务人,应真实、准确、及时、完整地向市场公开依法及自愿披露的信息。这些公开披露的信息包含但不仅限于公司基本情况、主要会计数据和财务指标、股东持股情况、高管薪酬情况等。上市公司信息披露是…

张小明 2026/1/9 2:33:32 网站建设

网站开发到发布seo知识总结

众所周知,风险与风控如影随形,一直在共同进化。AI时代的到来,让风险的形态、规模和复杂度都发生了颠覆性变化,传统风控体系正面临前所未有的挑战,风控领域已然“变天”。从规模上看,AI技术的普及让数字内容…

张小明 2026/1/9 3:17:08 网站建设

成都交易网站建设线上招生引流推广方法

Linly-Talker在智能家居控制中心的应用设想 在智能家庭设备日益普及的今天,用户早已不再满足于“打开灯”“关闭空调”这类机械式语音指令。他们期待的是一个能听懂语境、会表达情绪、甚至“看得见”的虚拟伙伴——一个真正有温度的家庭成员式交互体验。 这正是 Lin…

张小明 2026/1/9 6:21:17 网站建设

南京seo网站优化古塔网站建设

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个开发环境快速生成器,能够:1) 根据项目类型(Python/Node.js/Java等)自动选择最优基础镜像 2) 配置常用开发工具和依赖 3) 生成docker-compose文件 4)…

张小明 2026/1/7 17:20:07 网站建设

无锡信息网站建设修改网站图片

如何快速使用Colorful.Console:控制台彩色输出完整指南 【免费下载链接】Colorful.Console Style your .NET console output! 项目地址: https://gitcode.com/gh_mirrors/co/Colorful.Console 厌倦了黑白色的控制台界面?想要为你的命令行应用增添…

张小明 2026/1/7 17:19:35 网站建设