柳市网站建设公司哈尔滨网络公司有哪些-贵港市网站建设公司-Seo优化

柳市网站建设公司,哈尔滨网络公司有哪些,鸿铭物流网络建站,泉州百度关键词排名GPT(Generative Pre-Trained Transformer)#xff1a; GPT 系列是 OpenAI 的一系列预训练模型#xff0c;GPT 的目标是通过 Transformer#xff0c;使用预训练技术得到通用的语言模型(目前已经公布论文的有 GPT-1、GPT-2、GPT-3) 核心架构#xff1a;仅解码器#xff08;…GPT(Generative Pre-Trained Transformer)GPT 系列是 OpenAI 的一系列预训练模型GPT 的目标是通过 Transformer使用预训练技术得到通用的语言模型(目前已经公布论文的有 GPT-1、GPT-2、GPT-3)核心架构仅解码器单向自回归核心能力连贯文本生成典型使用场景对话系统、内容创作、代码补全、故事续写、多轮交互gpt 不同版本的参数对比batch size一般是指sequence的数量GPT里的batch size是指sequence_num * sequence_lengthGPT-3 开始以 tokens 数进行展现GPT-2 还是序列数量 512统一度量的话就是512*1024 0.5M tokens核心架构(gpt1/2Max/3Max)预训练任务训练数据序列长度(token)优化器学习率12 /48/96层解码器见下方见下方512/1024/2048Adamβ10.9β20.999ε1e - 8(见下方)见下方总参数量隐藏层维度d_model注意力头Feed Forward 维度d_ffDropout训练轮数(NNone)/批量大小(token)1.17/15/1750 亿768/1600/1228812/25/963072/6400/491524×d_model0.1嵌入 / 注意力 / 前馈层均用100-N-N/64-512-N1 GPT-1具体参数补充学习率调度Warmup 余弦退火 (Cosine Annealing)初始学习率为 0训练初期采用线性warmup逐步从0增加到初始学习率 2.5 × 1 0 的-4 次方(前 2k 步)退火阶段达到初始学习率后使用余弦退火 schedule 逐渐降低学习率同 Transformer 一样有线性增加热身的过程但具体的衰减方式和热身步数不同① 预热阶段前 k 步学习率从 0 线性升到预设最大值比如 1e-4防止初始梯度爆炸② 衰减阶段预热结束后学习率随步数反比例线性下降lr ∝ 1/√步数越往后降得越慢L2 正则化权重 w 0.01激活函数GELUGaussian Error Linear Unit「柔和版的 ReLU」不生硬截断。ReLU输入0 就输出本身≤0 就输出 0像一刀切容易让部分神经元 “躺平”GELU输入越大输出越接近本身输入越小输出越接近 0但不是直接切 0是慢慢趋近 0像温柔减速更贴合语言的模糊性规律位置嵌入采用可学习的位置嵌入矩阵而非原始 Transformer 中的正弦嵌入(类比 bert)。预训练任务因果语言建模CLM预测下一个 token下游采用 “预训练监督微调”训练数据BooksCorpus7000 本未出版书籍约 8 亿 token8GB模型结构与 transform 结构对比GPT-1 保留了 Decoder 的Masked Multi-Attention 层和 Feed Forward 层(也就是Decoder 部分那个带有掩码矩阵的部分Bert使用的是 Eecoder 部分)。注GPT 中采用了 Masked Multi-Head Attention而 Masked Multi-Head Attention 只利用上文对当前位置的值进行预测所以 GPT-1 被认为是单向的语言模型。扩大了网络的规模补Layer Norm层归一化指的是 AddNorm 部分中的 Norm 部分训练步骤第一个阶段是利用语言模型进行预训练无监督形式自回归语言建模简单理解就是顺着前文写后文依次填词第二阶段通过 Fine-tuning 的模式解决下游任务监督模式下Gpt1使用的是 BooksCorpus 数据集首先使用 ftfy 库清理原始文本标准化标点符号和空白字符然后使用 spaCy 分词器使用 Byte-Pair Encoding (BPE) 进行子词分解词汇表大小为 40,000不同下游任务的输入转换(见上图)分类任务。只需要在输入序列前后分别加上开始Start和结束Extract标记即 ⟨ s ⟩和⟨ e ⟩句子关系任务。除了开始和结束标记在两个句子中间还需要加上分隔符Delim$用于分隔子序列例如前提句和假设句问题和答案。文本相似性任务。与句子关系判断任务相似不同的是需要生成两个文本表示多项选择任务。文本相似任务的扩展两个文本扩展为多个文本。注这些符号在预训练时是不存在的下游任务需要的时候可以这样使用。在预训练阶段GPT采用语言模型损失Language Modeling Loss即交叉熵损失Cross Entropy Loss下方会解释交叉熵损失和最大似然的一些关系Zero-shot模型在预训练的时候只学习过通用的语言 / 知识没有专门学习过某个下游任务的标注数据也就是没做过这个任务的 “练习题”但直接让模型去完成这个下游任务GPT-1 目标是服务于单序列文本的生成式任务所以舍弃了关于 Encoder 部分以及包括 Decoder 的 Encoder-Dcoder Attention 层也就是 Decoder中的 Multi-Head Atteion。GPT - 1 的目标是单序列文本的生成式任务不需要依赖 Encoder 的输出因此它删除了编码器 - 解码器注意力层仅保留了掩码多头自注意力层和前馈神经网络层。其中掩码多头自注意力机制能确保模型在预测当前 token 时只能依赖前文的 token 信息无法获取后文信息这和 GPT - 1 自回归的生成方式相匹配。比如预测句子中 “甜” 这个词时GPT - 1 只能依据前面 “我爱吃” 这样的前文内容来推断。2 GPT-2(包含多个版本) 优化训练稳定性Pre - Norm具体参数补充学习率调度初始 6e - 5余弦退火衰减。(单阶段无预热)无预热步骤训练第一步即采用 6e-5 初始学习率核心策略单次余弦退火衰减操作学习率随训练步数按余弦公式下降公式为 lr 6e-5 × 0.5×(1cos (π× 当前步数 / 总步数))最终衰减至 0训练至损失收敛预训练任务因果语言建模CLM聚焦零样本能力弱化微调依赖训练数据WebTextReddit 高质量链接网页800 万文档40GB约 80 亿 token模型改动加入了两个 Layer normalization(归一化层)一个加在每个 sub-block(比如自注意力和前馈网络)输入的地方block指的是一个功能模块包比如在原始 Transformer 的 Decoder Block 里是有三个这样的打包组合Masked Multi-Head Attention AddNormEncoder-Decoder Attention AddNormFeed Forward AddNorm这三个部分按顺序组合起来就是一个完整的 Decoder Block一个加在最后一个 self-attention block 的后面。gpt1 和 gpt2 的区别更通俗的讲就是GPT-1Post-Norm层归一化放置在残差连接之后。GPT-2Pre-Norm层归一化放置在残差连接之前。考虑到模型深度对残差路径的累积问题GPT-2 采用了修正的初始化方法。在初始化时将残差层的权重缩放到 1/ √n 倍 n为残差层的数量数据处理GPT-2 使用了 WebText 数据集进行训练。WebText 的文本来源是 4500 万个经过 Reddit 用户过滤后的网页链接至少有 3 karmakarma 可以当成点赞经过去重和清理后最终包含 800 万篇文档总计约 40GB 的文本GPT-1 数据集的大小约为 1GB。为了避免评估数据的“泄漏”数据集还特意去除了常见的数据来源比如维基百科。同时因为数据集的变化词汇表从 40,000 扩展到了 50,257。值得一提的是GPT-2 采用了字节级的 BPE (Byte-level Byte Pair Encoding) 进行分词GPT-1 使用的是常规的 BPE。vocabulary 的大小扩展到了 50257GPT-2 是 GPT-1 的改进版本其模型结构和 GPT-1 相比几乎没有什么变化只是让模型变得更大更宽并且取消了 Fine-tuning 的步骤。也就是说 GPT-2 采用了一阶段的模型预训练代替了二阶段的模型预训练微调并且在语言模型文本摘要等相关领取取得了不错的效果。预训练阶段GPT-2 采用了多任务的方式不单单只在一个任务上进行学习而是多个不同的任务是共享主体 Transformer 参数的这样能进一步的提升模型的泛化能力因此在即使没有 Fine-turning 的情况下依旧有非常不错的表现。3 GPT-3(包含多个版本)架构一致按缩放定律扩大规模具体参数补充学习率调度初始 3e - 4余弦退火衰减(两阶段无额外分阶段)。阶段 1预热Warm-up基准按训练 token 量调度而非步数操作学习率从 0 线性升温至 3e-4预热覆盖前 3.75 亿 token适配超大模型初始化杜绝梯度爆炸阶段 2余弦退火衰减起点3.75 亿 token 预热结束后操作学习率按余弦曲线平滑下降最终衰减至 3e-5初始学习率的 1/10而非 0避免后期学习率过低导致收敛停滞预训练任务因果语言建模CLM主打上下文学习少样本 / 零样本无需梯度更新适配任务训练数据混合语料Common Crawl、WebText、书籍、维基百科等约 3000 亿 token经去重筛选总计570GBCommon Crawl过滤后占60%WebText2占22%Books1 Books2各占8%Wikipedia占3%GPT-3 的训练数据集来自 Common Crawl、WebText2、Books1、Books2 和 Wikipedia更细致的数据处理自动过滤与 Pareto: 用高质量语料训分类器打分再用 Pareto 分布做概率采样最后按非等比例权重重新分配训练优先级选高质量的正负样本训练分类模型给文本质量打分Pareto 分布辅助采样帕累托分布是 “少数高分文档大概率保留低分文档小概率保留” 的分布 ——α9 时90% 以上的高质量文档会留下同时保留约 10% 低质量文档避免语料单一、模型泛化差重新采样非等比例分配训练权重设定采样权重按数据集质量定优先级如 WebText222%、Wikipedia6%权重高于 Common Crawl60%虽占比高但质量一般计算训练轮次3000 亿 token 训练量下WebText2 约学 2.9 轮Wikipedia 约 3.4 轮Common Crawl 仅 0.44 轮模糊去重:用 MinHashLSH局部敏感哈希算法把文档映射成 “哈希签名”通过签名相似度判断文档相似度而非逐字比对效率低目标去内部冗余比如 Common Crawl 里多个网页抄同一篇文章只留 1 份去跨源冗余比如 Common Crawl 和 Wikipedia 有重复段落统一剔除防测试污染对比测试集删除 13 - gram 重叠的内容保证测试结果真实GPT - 3 实操步骤用 Spark 实现高效去重特征提取和分类器用一样的 Spark 分词 HashingTF 特征保证一致性生成哈希签名用 Spark 的 MinHashLSH 实现生成 10 个哈希值10 hashes代表文档的 “模糊指纹”相似度匹配计算文档间哈希签名的相似度超过阈值如 0.8则判定为重复去重执行保留相似度最高的 1 份文档删除其余重复 / 高度相似文档最终 WebText2 等高质量数据集去重后约减少 10% 数据改动交替使用密集Dense和局部带状稀疏注意力Locally Banded Sparse Attention密集注意力相当于你读一本书时每读一句话都要和书里所有句子做关联局部带状稀疏注意力相当于你读一本书时只重点看当前句子前后几页的内容GPT - 3 的 Transformer 解码器层是交替排布这两种注意力的比如一层密集、一层稀疏再一层密集、一层稀疏……不是所有层都用全密集或全稀疏。少样本学习GPT-3 创新在于示例样本的引入推理时通过在提示Prompt中加入少量样本来“告诉”模型要完成的具体任务不对模型进行任何参数更新。相较于需要额外微调fine-tuning的做法极大减少了特定任务的数据量需求。具体操作使用 K 样本作为条件Conditioning在推理时对于评估集中test set的每一个测试样本模型都会从对应任务的训练集中随机选出 K 个示例样本。将这 K 条示例样本上下文正确答案与当前测试样本的上下文拼接在一起作为模型的输入Prompt。让模型根据提示Prompt来生成答案。注对于 GPT-3 来说Few-shot 方式在特定场景下不及 SOTAState-of-the-Art的微调模型。具体任务论文中提到了两大类常见任务选择题Multiple Choice 和自由生成Free-form Completion它们的核心流程都是“将示例样本与测试样本合并到 Prompt 中”。In-Context Learning 简单来说就是模型在不更新自身参数的情况下通过在模型输入中带入新任务的描述与少量的样本就能让模型”学习”到新任务的特征并且对新任务中的样本产生不错的预测效果。这种能力可以当做是一种小样本学习能力是 GPT3 的核心能力核心一句话推理时不给模型微调不更新参数只在 prompt 里加任务示例 / 指令让模型靠上下文 “临时悟” 任务规则直接输出结果ICL 与微调的区别ICL通过提示Prompt完成任务而微调是通过训练更新参数来适应任务。一个不更新参数一个更新参数。一个是 eval一个是 train。In-Context Learning (ICL上下文学习能力)如何体现Zero-Shot Learning零样本学习仅通过自然语言Prompt描述任务不提供任何样本。One-Shot Learning单样本学习除了任务描述外提供一个样本。Few-Shot Learning小样本学习除了任务描述外提供多个样本按论文的叙述是几十个“a few dozen examples”。4 补充4.1 关于最大似然和交叉熵损失函数的区别最大似然估计MLE是一种估计方法它的公式是用来计算 “什么样的模型参数能让真实的文本出现的概率最大”是从 “概率” 的角度出发的比如你手里有一个硬币扔了 10 次有 8 次正面、2 次反面最大似然就是找到这个硬币的 “正面概率”—— 最符合这 10 次扔硬币结果的那个概率显然是 80%这个概率就是最大似然的结果交叉熵损失是一种损失计算的公式它的公式是用来计算 “模型的预测和真实值的差距”是从 “误差” 的角度出发的用来计算「模型猜的概率」和「真实情况」之间的差距的比如模型猜这个硬币的正面概率是 70%和真实的 80% 有差距交叉熵就会给出一个数值来表示这个差距如果模型猜的是 80%交叉熵的数值就会很小对于 GPT 的单步生成真实的词是y模型预测的词的概率分布是P(y|x)x 是前文最大似然估计的目标是找到模型参数让P(y|x)的数值尽可能大让真实词出现的概率最大而在这个任务里交叉熵损失的公式刚好就等于 -log(P(y|x))负的真实词概率的对数那要让P(y|x)最大就等价于让 -log(P(y|x))最小而-log(P(y|x))就是这个任务里的交叉熵损失在端到端的 AI 模型里只要是用交叉熵损失做训练的分类 / 生成任务本质上都是在做最大似然估计因为两者在这些任务里是数学等价的只是我们的说法不同我们会说 “用交叉熵损失训练模型”这是从 “损失计算、梯度下降” 的工程角度来说的我们会说 “这个模型的训练是基于最大似然估计”这是从 “统计目标” 的理论角度来说的注交叉熵的核心公式(思想)是固定的只是在不同的任务里因为真实概率分布 P 的形式不一样所以计算的时候会做简化看起来像是不一样的公式但本质都是在计算真实分布和预测分布的差距4.2 其他NLP预训练方式一种是完形填空的方式BERT一种是上下文方式GPT。用相关专业名词解释分别为自编码Autoencoder简称AE和自回归Autoregressive简称AR语言建模并以此与上面所说的Transformer架构联系起来Transformer encoder是一个AE模型Transformer decoder则是一个AR模型。实际训练过程中用到的一些技术补充稳健训练方面线性预热(有封装)训练刚开始学习率从 0 慢慢、线性地升到预设最大值比如 GPT3 从 0 升到 3e-4预热完再正常衰减预热步数warmup_steps比如 GPT1 是 2000 步GPT3 是按 3.75 亿 token 换算成步数目标学习率lr₀预热结束后要达到的学习率比如 GPT1 是 2.5e-4每一步的 lr lr₀ × (当前预热步数 / 总预热步数)梯度裁剪防止梯度爆炸(有封装)设定一个梯度最大阈值比如 GPT3 设 L2 范数 1.0每次计算完梯度先判断如果梯度的总范数超过阈值就按比例把梯度 “缩小” 到阈值内再用裁剪后的梯度更新参数计算当前梯度的全局 L2 范数norm若 norm ≤ 阈值不裁剪梯度原样用若 norm 阈值按「阈值 /norm」的比例缩小所有梯度权重衰减Weight Decay 稳健通俗理解给模型参数 “减重”防止参数太大导致过拟合操作更新参数时给参数乘一个小于 1 的系数比如 GPT3 用 0.1让参数慢慢变小避免冗余注意不是正则化但效果类似GPT3 专门用它防过拟合GPT1/2 没用到规模小不需要残差连接层归一化Residual Connection Layer Norm 稳健见上方优化训练效果类让模型学得更好余弦退火让学习率像余弦函数曲线一样从高到低平滑下降不是陡降具体操作(有封装)用余弦函数计算每一步的学习率系数再乘初始学习率得到当前步实际学习率当前步学习率 lr₀(初始学习率) × 系数系数 0.5 × [1 cos ( π × t / T)]T 是总步数t 是当前步数学习率重启Cosine Annealing with Restarts是余弦退火的升级版退火到一定程度后把学习率回升一点再继续退火像 “温火慢炖”让模型在局部最优解里再找找更好的解注意GPT1/2/3 没用但后续大模型比如 LLaMA常用标签平滑Label Smoothing通俗理解不让模型 “绝对自信”更稳健操作语言模型是预测下一个 token原本标签是 “1正确 token” 和 “0错误 token”标签平滑后正确 token 标 0.9错误 token 标 0.1 / 总错误数让模型不把答案学死泛化更强防止过拟合优化泛化能力的方法Dropout训练时随机让一部分神经元 “休息”输出置 0防止神经元过度依赖彼此避免死记硬背注意推理时不用 Dropout所有神经元都工作数据增强Data Augmentation通俗理解给训练数据 “加花样”让模型见得多学得活适配语言模型比如随机替换同义词、随机删除无关词、句子顺序微调不用新增数据就能扩充训练样本早停Early Stopping通俗理解见好就收防止训练太久过拟合操作训练时当验证集损失连续多轮不下降反而上升就提前停止训练不用训到预设轮数提效率类提升训练速度 / 省算力和批量累积 / 混合精度对应模型并行数据并行Model Parallel Data Parallel核心解决大模型比如 GPT3 1750 亿参数单张显卡装不下、算不动数据并行把数据拆成多份多张显卡各算一份数据的梯度最后汇总更新参数提速模型并行把模型拆成多部分比如把 Transformer 层拆成几段多张显卡各装一部分协同计算装下大模型关键GPT3 就是靠这两种并行结合才能训练 1750 亿参数梯度检查点Gradient Checkpointing通俗理解“以时间换空间”省显存优先操作训练时不保存所有中间层结果占显存反向传播时再重新计算需要的中间层牺牲一点时间换更多显存装模型适用超大模型必备比如 GPT3 训练时大量用它省显存批量累积Gradient Accumulation在硬件受限时通过多次前向传播和反向传播累积梯度核心目的解决「算力不够」—— 想要大批次批次越大训练越稳但显卡显存装不下大批次数据操作把 1 个大批次拆成多个小批次逐个算小批次的梯度不着急更新参数先把梯度累加起来等小批次都算完梯度累积够 1 个大批次再用累加的梯度更新 1 次参数通俗类比想搬 100 块砖大批次一次搬不动分 5 次搬 20 块小批次凑够 100 块再统一堆好混合精度训练使用FP16和FP32混合精度以加速训练(有封装)核心目的提效率、省显存让大模型能在有限算力下训练模型训练默认用 32 位浮点数FP32精度高但占显存、计算慢16 位浮点数FP16占显存少、计算快但精度低容易训练不稳定操作训练时大部分计算用 FP16省显存提速关键部分比如梯度更新、参数保存用 FP32保精度稳训练两者结合兼顾效率和稳定性4.3 参考资料1 2 3 4 5

柳市网站建设公司哈尔滨网络公司有哪些

镇江网站设计制作seo网站建设方案

湖州服装网站建设长春建站服务

集团型网站建设湖北工程建设信息网

网站备案怎么查询重庆建工集团

展览展示设计网站wordpress 少儿

网站建设后期出现的问题自己做自媒体在哪个网站比较好