免费网站建设专业服务平台报纸门户网站建设方案

张小明 2025/12/30 12:32:00
免费网站建设专业服务平台,报纸门户网站建设方案,织梦cms可以做淘宝客网站么,网站制作 福宁网络有限公司目录 第三部分 计算广告关键技术 第9章 计算广告技术概览 9.4 计算广告系统主要技术 第10章 基础知识准备 10.1 信息检索 10.2 最优化方法 10.2.1 拉格朗日法与凸优化 10.2.2 下降单纯形法 10.2.3 梯度下降法 10.2.4 拟牛顿法 第三部分 计算广告关键技术 第9章 计算广…目录第三部分 计算广告关键技术第9章 计算广告技术概览9.4 计算广告系统主要技术第10章 基础知识准备10.1 信息检索10.2 最优化方法10.2.1 拉格朗日法与凸优化10.2.2 下降单纯形法10.2.3 梯度下降法10.2.4 拟牛顿法第三部分 计算广告关键技术第9章 计算广告技术概览9.4 计算广告系统主要技术计算广告系统本质上是一个复杂、实时、数据密集的决策智能系统。它的核心使命是在对的时间对的场景将对的产品或服务以对的创意形式展示给对的人并最终实现媒体、广告主、用户三方价值的动态平衡与最大化。要完成这一使命需要一整套强大的技术体系作为支撑。我们可以从三个维度来理解这套技术体系数据管理、算法模型和系统工程。1. 数据系统的血液与燃料一切智能始于数据。计算广告系统处理的是互联网上最广泛、最实时、最多样的数据。用户行为数据这是“理解人”的基础。包括用户在媒体上的浏览、点击、搜索、购买、停留时长、地理位置等。这些数据通过前端埋点如SDK、JS代码实时采集构成了用户画像和兴趣模型的原材料。例如一个用户频繁浏览汽车论坛和跑车视频系统会为他打上“汽车爱好者”、“潜在高端消费者”等标签。上下文环境数据这是“理解场景”的关键。包括用户当前访问的页面内容通过NLP技术提取关键词、主题、使用的APP类型、时间、设备手机/PC、网络环境Wi-Fi/4G等。在体育新闻页面旁边展示运动鞋广告就是上下文定向的典型应用。广告物料数据这是“理解货”的部分。包括广告主的文案、图片、视频、落地页内容以及广告主所属的行业、品牌调性、历史表现数据如CTR、转化率等。商业规则与合约数据这是“理解交易”的框架。包括广告活动的预算、出价、目标受众、投放时段、频次控制要求以及广告位的位置、尺寸、底价等。这些数据共同构成了一个多维度的特征空间。广告系统所做的每一次决策是否展示、展示哪个广告都是在这个高维特征空间中进行的一次复杂计算和匹配。2. 算法模型系统的大脑有了数据燃料算法模型就是驱动系统智能决策的引擎。计算广告的核心算法可以概括为“两步走”先筛选后排序。检索与匹配筛选从海量广告库可能数百万计中快速筛选出与当前请求用户上下文可能相关的数百个候选广告。这主要依赖信息检索IR技术如倒排索引。系统会为广告建立索引例如广告A的索引词为“汽车、新能源、SUV”当用户访问一个包含“特斯拉”的页面时系统能瞬间召回所有包含“汽车”、“新能源”等关键词的广告。近年来基于深度学习的语义匹配模型如DSSM、BERT也被广泛应用它能理解“续航”和“电池”之间的语义关联实现更精准的召回。排序与决策排序对召回的数百个候选广告进行精排序决定最终展示哪一个。这是计算广告技术的皇冠明珠核心是点击率预估pCTR和转化率预估pCVR模型。逻辑回归LR与因子分解机FM在深度学习普及前LR因其简单、高效、可解释性强是点击率预估的主流模型。FM则能自动学习特征之间的交互关系例如“男性”和“游戏”同时出现时点击率会显著升高效果优于LR。梯度提升决策树GBDT一种强大的非线性模型善于处理异构特征数值型、类别型和复杂模式。常与线性模型如LR结合用GBDT进行特征变换再用LR进行最终预测。深度学习模型当前工业界的绝对主流。其优势在于能自动进行高阶特征组合并处理更原始的特征如图像、文本序列。Wide Deep谷歌提出的经典架构兼顾记忆能力Wide部分处理大量稀疏特征记忆历史规律和泛化能力Deep部分探索新的特征组合。DeepFM用FM层替代Wide部分实现了端到端的特征交叉学习。DIN/DIEN阿里系列模型专门针对用户行为序列数据。DIN深度兴趣网络能捕捉用户历史行为与当前候选广告的相关性DIEN深度兴趣进化网络更进一步模拟用户兴趣随时间的变化趋势。3. 系统工程系统的骨架与肌肉再先进的算法也需要一个健壮、高可用、低延迟的工程系统来承载。计算广告系统对工程的要求极为苛刻主要体现在高并发与低延迟一次网页或APP的广告加载要求在100毫秒内完成所有决策并返回广告素材。面对“双十一”、“春晚”等峰值流量系统需要承受每秒数百万甚至上千万次的查询请求。高可用与强一致系统需要7x24小时不间断运行。任何宕机都意味着媒体收入的直接损失。同时像预算消耗、频次控制这类数据必须在分布式环境下保持强一致性防止超投或重复投放。大数据处理能力每天需要实时处理TB甚至PB级的日志数据用于模型训练、效果分析和账单结算。为了实现这些目标现代计算广告系统普遍采用微服务架构和Lambda架构。微服务架构将系统拆分为独立的服务如用户画像服务、召回服务、排序服务、计费服务等。每个服务可以独立开发、部署和伸缩提高了系统的灵活性和可维护性。Lambda架构同时满足实时和离线数据处理的需求。批处理层使用Hadoop/Spark处理全量历史数据训练复杂的深度学习模型生成用户长期兴趣画像。速度慢但全面、准确。速度层使用Flink/Storm/Spark Streaming处理实时数据流进行实时特征计算如用户10分钟内的点击次数、实时模型预估修正。速度快能捕捉最新趋势。服务层将批处理和速度层的结果合并提供给在线服务使用。技术挑战与权衡计算广告系统的发展始终贯穿着一系列核心权衡效果与效率的权衡更复杂的模型如深度模型效果更好但在线推理耗时更长。工程师需要在模型复杂度、特征数量与响应延迟之间找到最佳平衡点常用模型压缩、特征选择、并行计算等技术。探索与利用的权衡系统是应该持续投放已知的高CTR广告利用还是尝试投放一些新广告以收集数据、发现潜在黑马探索这关系到系统的长期收益通常用Bandit算法或强化学习来解决。收入与体验的权衡如何在最大化广告收入的同时保证用户体验不被过度打扰这涉及到广告频次控制、创意质量审核、原生广告融合等技术。总而言之计算广告系统的主要技术是一个融合了大数据、人工智能和超大规模系统工程的复杂综合体。它既需要算法科学家不断突破预测精度的极限也需要系统工程师构建坚如磐石的基础设施。正是这两股力量的交织与协作才驱动着数字广告行业不断向着更智能、更高效、更可持续的方向演进。第10章 基础知识准备计算广告并非一座技术孤岛它建立在信息检索、最优化理论、统计机器学习和深度学习等多项基础学科的坚实地基之上。这一章我们将系统回顾这些支撑计算广告大厦的关键理论和技术为您后续深入理解广告系统各模块扫清障碍。10.1 信息检索信息检索的核心任务是从大规模非结构化数据集合中找出与用户查询需求相关的信息。在计算广告中这个“数据集合”是海量的广告库存“查询”是用户的当前上下文搜索词、浏览页面、用户画像而“相关信息”就是那些最可能被用户接受并点击的广告。因此IR技术是广告召回阶段的基石。10.1.1 倒排索引想象一下你在一个拥有数百万本藏书的图书馆里要找所有提到“深度学习”和“广告”的书籍。一本一本地翻看即“正排索引”是灾难性的。图书馆管理员会使用一个卡片目录柜每个卡片记录一个关键词如“深度学习”以及所有包含这个词的书籍编号。这个卡片柜就是倒排索引。1. 核心概念与构建正排索引以文档广告为中心。记录每个广告ID对应的全部描述关键词。{广告ID: [关键词1 关键词2 ...]}倒排索引以关键词词项为中心。记录每个关键词出现在哪些广告ID中以及出现的位置、频率等信息。{关键词: [广告ID1 广告ID2 ...]}构建过程文档分析对每个广告的标题、描述、落地页内容等进行分词去除停用词“的”、“了”等得到词项列表。词项归一化将词项转化为统一形式如转为小写、词干提取将“running”、“ran”归为“run”。建立倒排记录表为每个词项创建一个列表记录包含它的所有广告ID以及在该广告中出现的次数词频TF和位置等信息。2. 查询处理当收到一个用户查询例如搜索词“新款SUV汽车”时系统对查询进行同样的分词和归一化处理得到词项列表[“新款” “suv” “汽车”]。从倒排索引中分别取出这三个词项对应的广告ID列表。对这些列表进行布尔运算通常是与操作即求交集快速得到同时包含这三个词的所有候选广告ID集合。这个过程的速度与广告库总大小无关只与词项对应的列表长度有关效率极高。3. 在计算广告中的应用与挑战搜索广告这是倒排索引最直接的应用。用户搜索“婚纱摄影”系统通过倒排索引瞬间召回所有购买了这一关键词的广告主广告。展示广告的上下文定向将用户正在浏览的网页内容视为“查询”通过倒排索引召回与页面主题相关的广告。例如浏览一篇关于“三亚旅游攻略”的博客召回包含“机票”、“酒店”、“防晒霜”等关键词的广告。挑战与演进语义鸿沟倒排索引基于精确的词项匹配。“汽车”和“轿车”在语义上相近但索引无法自动关联。这需要依靠同义词扩展或更高级的语义模型如词向量来弥补。个性化缺失倒排索引只关心内容匹配不关心“谁”在看。一个对汽车不感兴趣的用户看到汽车广告也不会点击。这需要与用户画像、行为定向等技术结合。规模化与实时性互联网广告库巨大且更新频繁新广告上线、旧广告下线。倒排索引需要支持分布式存储与更新如基于Elasticsearch或自研分布式索引系统并能近乎实时地生效。倒排索引是连接“用户意图/场景”与“广告内容”的第一座桥梁它的高效性确保了广告系统能在毫秒级时间内从浩如烟海的广告库中初筛出可能的候选集。10.1.2 向量空间模型倒排索引解决了“有没有”的布尔匹配问题但无法判断“有多相关”。向量空间模型则将这种相关性度量转化为一个可计算的相似度分数。1. 核心思想文档与查询的向量化VSM的基本假设是我们可以把一个文档或查询表示为一个高维空间中的向量而这个空间的每一维对应一个词项来自整个词典。向量的值代表了该词项对于这个文档的重要性。关键步骤构建词典从所有文档集合中提取出所有独特的词项构成一个词典。假设词典大小为N那么每个文档或查询就可以表示为一个N维向量。权重计算 - TF-IDF这是VSM的灵魂。向量中每个维度的值即权重由两部分组成词频词项在当前文档中出现的频率。TF越高说明该词对当前文档越重要。逆文档频率一个词项在整个文档集合中出现的频率的倒数。IDF越高说明该词具有很好的区分能力。像“的”、“是”这种在所有文档中都出现的词IDF极低重要性也低。TF-IDF TF × IDF。它平衡了词项的局部重要性和全局区分度。相似度度量 - 余弦相似度计算查询向量q和文档向量d之间夹角的余弦值。相似度(q d) cos(θ) (q · d) / (||q|| * ||d||)点积衡量了共同词项的权重乘积之和而分母的归一化操作消除了文档长度的影响长文档天然包含更多词点积可能更大。余弦值范围在[-1, 1]之间对于TF-IDF这种非负权重范围在[0, 1]值越接近1表示越相似。2. 在计算广告中的应用广告与查询/页面的相关性排序在搜索广告或上下文广告的召回后可以利用VSM计算每个候选广告与用户查询或当前页面的余弦相似度作为相关性初排的依据过滤掉那些虽然匹配关键词但主题偏离的广告。文本主题特征提取广告、页面、用户兴趣标签都可以被表示为TF-IDF向量。这些向量可以作为机器学习模型如LR、FM的输入特征用于更精细的点击率预测。冷启动广告的粗排对于一个全新的、没有任何历史行为数据如点击的广告VSM提供了一种基于内容计算其与各种上下文匹配度的可行方法。3. 局限性“词袋”假设VSM忽略词序和语法结构。“狗咬人”和“人咬狗”的向量表示是一样的。高维稀疏词典维度N可能高达百万甚至千万级而一个文档中出现的词是有限的导致文档向量极度稀疏大部分维度为0计算和存储有挑战。语义局限与倒排索引一样VSM难以处理同义词“电脑”和“计算机”和多义词“苹果”公司 vs “苹果”水果问题。尽管有这些局限TF-IDF和余弦相似度因其简单、有效至今仍在文本相关性的许多场景中作为基础特征或基线方法使用。它为从“精确匹配”迈向“模糊相关”迈出了关键一步并为后续更复杂的语义建模技术如主题模型、词向量、深度学习铺平了道路。10.2 最优化方法如果说信息检索帮助系统“找到”候选广告那么最优化方法则指导系统如何“抉择”和“分配”资源以实现全局目标如平台总收入最大、广告主ROI最高的最优。计算广告本质上是一个持续不断的最优化过程。10.2.1 拉格朗日法与凸优化许多广告问题天然带有约束条件广告主的预算、广告位的库存、用户的频次上限。拉格朗日乘子法是处理这类约束优化问题的经典武器而凸优化则为其提供了坚实的理论保障和高效的求解路径。1. 拉格朗日乘子法给约束标价我们考虑一个典型的广告主问题在有限预算B下如何分配花费到不同的关键词或人群上以获得最大的总点击量形式化为最大化总点击量 Σ(点击率_i * 出价_i)约束条件Σ(花费_i) ≤ B拉格朗日法的核心思想是将约束条件以一定“价格”拉格朗日乘子λ引入目标函数构造拉格朗日函数L(出价 λ) Σ(点击率_i * 出价_i) λ * (B - Σ(花费_i))这个新函数将有约束的原问题转化为对出价和λ的无约束优化问题。经济学解释λ可以被理解为预算的影子价格。它衡量了每增加一单位预算能为目标函数总点击量带来多少增量。在最优解处所有能带来正收益的投放渠道其“边际收益”点击率与“边际成本”λ * 花费对出价的导数都达到平衡。如果某个渠道的边际收益低于边际成本则应减少其投放反之则增加。2. 凸优化高效求解的乐园拉格朗日法指出了最优解应满足的条件KKT条件但具体求解还需要依赖问题的结构。凸优化问题是一类性质极好的优化问题定义目标函数是凸函数约束定义的可行域是凸集。关键性质任何局部最优解即是全局最优解。这意味着找到的任何一个“山峰”都是唯一的“最高峰”避免了陷入局部最优的困境。在计算广告中的应用点击率模型训练逻辑回归LR模型的损失函数是凸的。这保证了我们使用梯度下降等算法求解模型参数时能收敛到全局最优解而非一个局部次优解。广告分配问题当将广告展示视为资源将广告主需求视为任务并且目标函数和约束都是线性时就形成了一个线性规划问题凸优化的子类。在线分配、预算平滑等问题常可抽象为此类模型。对偶理论许多复杂的广告分配问题其对偶问题往往有更清晰的经济学意义如影子价格对应着广告位的市场清算价且更容易求解。这为设计像广义第二价格这样的拍卖机制提供了理论灵感。理解拉格朗日法和凸优化为我们分析广告系统中的资源分配、市场均衡和算法收敛性提供了不可或缺的理论透镜。10.2.2 下降单纯形法1. 直观理解在黑暗中摸索最高点想象一下你被蒙上眼睛放在一片起伏的山丘上任务是找到最高点。你无法看到地形全貌无法求导但可以用脚感知高度可以计算函数值。下降单纯形法又称Nelder-Mead方法就是一种基于这种触觉感知的搜索策略。下降单纯形法是一种直接搜索方法它不依赖于目标函数的梯度信息而是通过构建和变换一个几何形状——单纯形——来逐步逼近最优解。在N维空间中单纯形是由N1个点构成的几何体二维空间中是三角形三维空间中是四面体依此类推。2. 核心操作反射、扩展、收缩与缩小算法从一个初始的单纯形开始通过对最差点的四种基本操作来更新单纯形排序与评估计算单纯形所有顶点的函数值确定最佳点B函数值最小的点假设最小化问题最差点W函数值最大的点次差点S函数值第二大的点重心点C除去W点后其余所有点的几何中心反射Reflection这是最常用的操作。直觉是最差点W很可能在最优点的另一侧因此将W通过重心C进行反射得到反射点R。R C α * (C - W)其中α是反射系数通常为1。如果R的函数值比S好但不如B说明方向正确但还不够用R替换W形成新的单纯形继续迭代。扩展Expansion如果反射点R的函数值比最佳点B还要好说明这个方向潜力巨大应该走得更远一些。E C γ * (R - C)其中γ是扩展系数通常为2。如果E比R还好就用E替换W否则用R替换W。收缩Contraction如果反射点R的函数值比次差点S还差但比最差点W好说明我们可能反射过度了。此时在C和R之间选择一个内收缩点。Con C ρ * (R - C)其中ρ是收缩系数通常为0.5。如果Con比R好则用Con替换W。缩小Shrink如果反射点R比最差点W还差说明反射操作完全失败或者收缩后的点不理想则进行缩小操作——将整个单纯形向最佳点B收缩。除了B点外其他每个点都向B移动一半距离P_i_new B σ * (P_i_old - B)其中σ是缩小系数通常为0.5。3. 在计算广告中的应用场景在计算广告系统中下降单纯形法主要应用于那些目标函数复杂、不可导或求导代价极高的优化问题A/B测试参数调优广告系统中有大量经验参数需要调优如不同特征组合的权重、各种召回策略的数量配比、实时流量分配的阈值等。这些参数共同影响着系统整体的收入、用户体验等关键指标。我们可以将这些指标组合成一个综合目标函数如收入 * 0.7 用户体验得分 * 0.3然后使用下降单纯形法在参数空间中搜索最优组合。由于评估一次目标函数需要线上A/B测试一段时间可能是几小时且函数表面可能不平滑梯度信息难以获取下降单纯形法这种黑盒优化方法非常合适。创意组合优化程序化创意系统需要决定在特定场景下展示哪种图片、文案、按钮颜色的组合效果最好。每种组合的点击率需要通过实际曝光来估计形成的是一个离散的、评估成本高的搜索问题。我们可以将各种创意元素编码为连续或离散的参数使用改进的单纯形法如适应于离散空间的变种来探索最优创意组合减少需要穷举测试的次数。冷启动策略优化对于新广告主或新广告计划缺乏历史数据初始投放策略如出价、定向范围需要谨慎设置。可以通过构建一个模拟环境将策略参数作为输入预估的长期收益作为输出使用单纯形法快速找到一组相对稳健的初始参数。4. 优势与局限性优势无需梯度适用于目标函数不可导、不连续或存在噪声的情况这在工程实践中很常见。概念简单易于理解和实现。维度适应性对于中低维度问题通常N20效果良好。局限性收敛速度慢与梯度方法相比收敛速度较慢尤其在高维空间中。无法保证全局最优对于多峰函数容易陷入局部最优。在实践中通常需要从多个不同的初始单纯形开始运行以增加找到全局最优的概率。参数敏感反射、扩展、收缩系数的选择会影响性能虽然有一些经验值α1, γ2, ρ0.5, σ0.5但对于特定问题仍需调整。工程实践技巧初始单纯形的构建不要使用过于扁平的单纯形例如点几乎共线这会影响搜索方向。通常从一个初始点出发沿各坐标轴方向扰动一定步长来构造其他点。收敛准则通常设定两个停止条件一是单纯形的大小各顶点间距离的最大值小于某个阈值二是函数值的相对改进小于某个阈值。与梯度法结合对于大规模问题可以先用单纯形法进行粗调找到 promising 的区域再使用梯度法进行精细优化。下降单纯形法提供了一种朴素而强大的优化思路它提醒我们即使没有精确的梯度地图通过系统性的试探和反馈同样可以有效地在复杂的参数空间中导航。在现代计算广告系统中它虽然不再是核心模型训练的工具但在系统调优和策略搜索等场景中依然占有一席之地。10.2.3 梯度下降法如果说下降单纯形法是在黑暗中摸索那么梯度下降法则像是获得了一个精准的指南针它清晰地指示了当前位置最陡峭的下山方向。这是现代机器学习和深度学习最核心的优化算法也是计算广告中几乎所有预测模型训练的引擎。1. 核心思想沿着最陡的方向下山考虑一个最小化问题我们希望找到参数向量w使得损失函数 L(w) 的值最小。梯度下降法的思想直观而深刻计算当前位置w的梯度∇L(w)。梯度是一个向量其每个分量是损失函数对对应参数的偏导数。它指向了函数值增长最快的方向。既然我们要最小化函数自然应该朝梯度的反方向移动。更新公式为w_new w_old - η * ∇L(w_old)其中η 称为学习率决定了每一步迈出的步伐大小。2. 批量、随机与小批量梯度下降根据计算梯度时使用的数据量不同梯度下降法有三种主要变体批量梯度下降使用整个训练集计算梯度。优点是梯度方向准确收敛稳定缺点是每次更新都需要遍历全量数据计算成本极高不适合大数据场景。∇L(w) (1/N) * Σ_{i1}^{N} ∇l(w; x_i, y_i)随机梯度下降每次随机抽取一个样本计算梯度。优点是更新频率极快可以实时学习且固有的随机性有助于跳出局部极小点缺点是梯度估计噪声大收敛路径震荡剧烈。∇L(w) ≈ ∇l(w; x_k, y_k)小批量梯度下降折中方案每次随机抽取一个小批量mini-batch通常是32、64、128等数据计算梯度。这是实践中最常用的方法它平衡了计算效率和收敛稳定性也适合GPU的并行计算架构。∇L(w) ≈ (1/B) * Σ_{i1}^{B} ∇l(w; x_i, y_i)3. 学习率的艺术从固定到自适应学习率η是梯度下降法最重要的超参数其设定直接影响收敛速度和最终性能。固定学习率最简单但需要精心调参。过大会导致震荡甚至发散过小会导致收敛缓慢。学习率衰减随着迭代进行逐渐降低学习率。常见策略有η_t η_0 / (1 decay_rate * t)反时衰减或η_t η_0 * decay_rate^{t}指数衰减。这有助于在初期快速接近解后期精细调整。动量法引入动量概念不仅考虑当前梯度还累积之前的梯度方向像滚下山的球一样带有惯性。这有助于加速收敛和减少震荡。v_t γ * v_{t-1} η * ∇L(w_t)w_{t1} w_t - v_t其中γ是动量系数通常0.9。自适应学习率算法为每个参数设置不同的、自适应调整的学习率。这是当前的主流。Adagrad为频繁更新的参数设置较小的学习率为不频繁更新的参数设置较大的学习率。适合处理稀疏特征在广告场景中非常普遍。RMSprop对Adagrad的改进引入衰减平均来避免学习率过早过快衰减至零。Adam结合了动量一阶矩估计和RMSprop二阶矩估计的思想并进行了偏差校正。因其优秀的默认性能和鲁棒性成为深度学习领域事实上的标准优化器。4. 在计算广告中的核心应用梯度下降法渗透在计算广告的每一个预测模型中逻辑回归模型训练逻辑回归的损失函数对数损失是凸函数使用梯度下降通常是小批量SGD或带L1/L2正则化的FTRL变种可以高效求解。这是早期点击率预估的主流方法。深度学习模型训练无论是用于点击率预估的WideDeep、DeepFM还是用于用户画像的神经网络其训练都严重依赖反向传播算法本质是梯度下降和Adam等优化器。海量的广告曝光、点击日志数据通过小批量梯度下降被喂给模型不断调整其数十亿甚至数百亿的参数。在线学习广告系统的数据流是持续不断的。为了捕捉用户兴趣的实时变化如突发新闻事件带来的流量变化系统需要模型能在线更新。在线梯度下降是核心技术每来一条或一小批新数据模型就进行一次参数更新实现模型的进化。强化学习中的策略优化在探索与利用EE和动态出价等场景中智能体Agent的策略网络需要通过策略梯度方法进行优化这本质上也是一种梯度下降目标是最大化长期累积奖励。5. 工程实现中的挑战与技巧特征稀疏性与优化广告特征极度稀疏一个样本只有极少部分特征非零。优化器需要高效处理稀疏更新。FTRL等算法就是为此设计的。分布式训练当模型参数和数据集大到单机无法容纳时需要分布式梯度下降。主要模式有数据并行将数据分片到多个工作节点各节点计算本地梯度然后汇总同步或异步更新一个全局参数服务器。模型并行将模型本身的不同部分分布到不同机器上。这在超大模型如千亿参数中常用。梯度爆炸与消失在深度神经网络中梯度在反向传播时可能指数级增大或减小。解决方案包括梯度裁剪设定阈值、使用合适的激活函数如ReLU、残差连接、批量归一化等。收敛性诊断在训练中需要监控训练损失和验证集指标的变化使用早停法防止过拟合并通过学习率热启动、周期性学习率等策略跳出局部平坦区。梯度下降法以其简洁而强大的思想将复杂的模型训练问题转化为可迭代计算的优化过程。它不仅是计算广告的基石更是整个人工智能时代最重要的算法思想之一。理解梯度下降就握住了打开现代机器学习大门的钥匙。10.2.4 拟牛顿法梯度下降法只利用了一阶梯度信息就像只知道当前位置最陡的方向但不知道这个方向的弯曲程度。拟牛顿法通过近似二阶导数信息能够更智能地调整每一步的步幅和方向从而在中等规模优化问题中实现更快的收敛速度。1. 牛顿法的启示与困境牛顿法是一种经典且强大的二阶优化方法。它利用目标函数 f(w)f(w) 在当前点 wkwk​ 的二阶泰勒展开其中 HkHk​ 是 Hessian 矩阵二阶导数矩阵。令导数为零得到更新公式这个公式的几何意义非常优美它不仅考虑了最速下降方向梯度还考虑了目标函数的局部曲率Hessian 矩阵的逆。当函数在某个方向非常平坦二阶导数小时Hessian 逆会放大步长当函数在某个方向非常陡峭二阶导数大时Hessian 逆会缩小步长。这相当于一个自适应的、各向异性的学习率。然而牛顿法在实际应用中面临三大挑战计算复杂度高计算 Hessian 矩阵需要 O(n2)O(n2) 的计算量n为参数维度存储需要 O(n2)O(n2) 内存求逆需要 O(n3)O(n3) 计算量。对于广告模型动辄百万甚至千万的参数这是不可行的。非凸问题的不适定性在非凸问题中Hessian 矩阵可能不是正定的其逆矩阵可能不存在或不稳定导致更新方向错误。数据批量的需求牛顿法通常需要在整个数据集上计算精确的梯度和Hessian在大数据场景下计算代价高昂。2. 拟牛顿法的核心思想用梯度信息近似曲率拟牛顿法的智慧在于不直接计算Hessian矩阵而是通过迭代过程中积累的梯度信息构建一个正定的矩阵 BkBk​ 来近似Hessian或者构建 DkDk​ 来近似Hessian的逆。其核心依据是Hessian矩阵满足的割线条件Secant Condition。记根据泰勒展开有 Hk1sk≈ykHk1​sk​≈yk​。我们希望近似矩阵 Bk1Bk1​近似Hessian或 Dk1Dk1​近似Hessian逆满足这个条件称为拟牛顿条件。它意味着近似矩阵应该能够正确地将参数空间的变化映射到梯度空间的变化。3. BFGS算法黄金标准在众多拟牛顿法中BFGS算法以其发明者Broyden, Fletcher, Goldfarb, Shanno命名被认为是最有效、最稳定的算法之一。它直接更新对Hessian逆的近似 DkDk​。BFGS更新公式这个公式虽然复杂但具有重要的性质如果初始 D0D0​ 是正定矩阵并且 ykTsk0ykT​sk​0通过 Wolfe 条件保证那么 Dk1Dk1​ 也是正定的。这使得BFGS算法可以稳定地用于非凸问题的优化。4. L-BFGS面向大数据的实用变种标准的BFGS算法需要存储 O(n2)O(n2) 的矩阵 DkDk​这对于高维问题仍然不现实。L-BFGS有限内存BFGS通过一个巧妙的技巧解决了这个问题它不显式存储矩阵而是存储最近 m 次迭代的向量对 {si,yi}{si​,yi​}通常 m 取 5到20并利用这些历史信息在每次迭代时即时计算搜索方向。具体来说计算搜索方向 pk−Dk∇f(wk)pk​−Dk​∇f(wk​) 可以通过一个高效的两循环递归算法完成其计算复杂度仅为 O(mn)O(mn)内存消耗为 O(mn)O(mn)。这使得L-BFGS能够处理参数维度极高的优化问题。5. 在计算广告中的应用场景拟牛顿法特别是L-BFGS在计算广告中主要应用于对收敛精度和速度有较高要求、且问题规模适中的场景传统机器学习模型的离线训练在特征工程阶段当我们需要训练一个精确的、可解释的线性模型如带正则化的逻辑回归或浅层树模型时L-BFGS是比随机梯度下降SGD更优的选择。它能在全量数据上以更少的迭代次数收敛到更高精度的解适用于对模型稳定性要求高的核心业务场景。超参数优化在优化广告系统的综合目标如收入、用户体验、广告主满意度等多目标加权时目标函数可能是一个复杂的、评估成本高的黑箱函数。基于拟牛顿法的序列模型优化如基于高斯过程的优化可以作为超参数搜索策略比网格搜索或随机搜索更高效。中等规模深度学习模型的预训练对于一些参数在百万到千万级别的深度模型如早期的深度点击率模型在较小的、高质量的数据子集上使用L-BFGS进行全批量训练可以快速得到一个良好的初始点然后切换为SGD或Adam进行大规模数据上的微调。在线学习的二阶方法近似一些在线学习算法如Follow-The-Regularized-Leader (FTRL)可以被视为一种特殊的自适应拟牛顿法。FTRL为每个特征维护一个累积梯度信息从而为每个特征维度自适应地调整学习率这相当于对Hessian矩阵的对角线进行了近似。它在稀疏高维特征广告场景的典型特征的在线优化中表现出色。6. 与一阶方法的比较与选择特性随机梯度下降SGD/Adam拟牛顿法L-BFGS收敛速度一阶线性收敛较慢超线性收敛较快每次迭代成本极低小批量中高需计算精确梯度并执行两循环递归内存需求低只存参数和动量中等存储m组历史向量调参难度需要调学习率、动量等相对简单主要调历史大小m大数据适应性极佳天生适合一般需全量或大批量梯度非凸问题稳定性好随机性有助于逃离局部极小需谨慎依赖 Wolfe 条件保证正定性选择指南当模型参数极多10亿、数据量巨大、且对单次迭代速度敏感时选择Adam等自适应一阶方法。当模型参数在百万到亿级别、有高质量的中等规模数据集、且追求高精度解时优先尝试L-BFGS。在在线学习场景处理稀疏逻辑回归问题时FTRL是工业界标配。拟牛顿法特别是L-BFGS代表了确定性优化算法在精度和效率上的一个优美平衡点。它提醒我们在追求大规模随机优化的今天对于某些关键的子问题采用更精确、更智能的优化策略往往能带来整体系统性能的显著提升。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站开发的标准网络建设公司的问答营销案例

地图下载工具终极指南:从零开始制作离线地图 【免费下载链接】水经注万能地图下载器X3.0Build1469 水经注万能地图下载器 X3.0(Build1469)是一款功能强大的地图下载工具,集成了全球谷歌卫星地图下载、全球谷歌地球(Goo…

张小明 2025/12/29 19:23:05 网站建设

无锡网站建设要多少钱什么是c2c模式

快速上手MoviePilot:打造智能NAS媒体库管理新体验 【免费下载链接】MoviePilot NAS媒体库自动化管理工具 项目地址: https://gitcode.com/gh_mirrors/mov/MoviePilot 还在为海量影视资源的管理而烦恼吗?MoviePilot作为一款专为NAS用户设计的媒体库…

张小明 2025/12/29 22:59:44 网站建设

怎么找网站站长wordpress搬家步骤

在视频制作过程中,字幕处理往往是创作者最头疼的环节。传统的手动打字幕不仅耗时耗力,还容易出错。AutoSubs作为专为Davinci Resolve设计的AI自动字幕工具,通过集成OpenAI Whisper语音识别技术,将音频内容智能转换为精准的时间轴对…

张小明 2025/12/29 22:51:26 网站建设

深圳商城网站建设报价单雄安新区做网站公司

你是否曾经好奇过游戏中的精美模型、音效和纹理是如何被封装和管理的?想要亲手提取或修改Unity游戏中的资源文件,却苦于找不到合适的工具?UABEA(Unity Asset Bundle Extractor Avalonia)正是你需要的解决方案&#xff…

张小明 2025/12/31 2:03:35 网站建设

个人网站的制作步骤seo助手

在当前照明工程市场,低价竞争愈演愈烈,部分厂商为压缩成本,采用劣质光源、缩水结构件甚至虚标参数,导致“球场灯”等专业照明产品频频出现光衰快、寿命短、维护频繁等问题。价格与价值严重脱节,不仅拉高了全生命周期使…

张小明 2025/12/29 22:36:59 网站建设

关于 建设 二级网站wordpress调用留言

第一章:手机部署Open-AutoGLM的现状与战略意义随着边缘计算与终端智能的快速发展,将大型语言模型(LLM)部署至移动设备已成为AI落地的重要方向。Open-AutoGLM作为开源自动化生成语言模型,具备轻量化推理能力与模块化架构…

张小明 2025/12/29 22:39:11 网站建设