青岛企业网站制作网网站开发站制作公司

张小明 2026/1/2 17:29:42
青岛企业网站制作,网网站开发站制作公司,1元购买域名,网站建设制作哪家好这一篇文章继续剩下的Post-Retrieval和Generation阶段的优化技术。 除此之外还有两个非常重要的问题要回答#xff1a;在搭建了RAG系统之后#xff0c;怎么评估它的表现#xff1f;在看完了这么多高级的RAG系统设计之后#xff0c;业界实践的现状是什么样的#xff1f;采…这一篇文章继续剩下的Post-Retrieval和Generation阶段的优化技术。除此之外还有两个非常重要的问题要回答在搭建了RAG系统之后怎么评估它的表现在看完了这么多高级的RAG系统设计之后业界实践的现状是什么样的采用的核心技术包含哪些我希望借助这些内容初步展示要“落地RAG”需要注意些什么以及有一些什么进阶方向。这篇文章包含以下几个部分Post-Retrieval优化Generation优化RAG系统评估当前业界RAG的核心技术栈这篇文章依然会比较长感兴趣的朋友可以先收藏或者转发~01. Post-Retrieval检索后在实践中大家都倾向于让检索的内容尽量“不要遗漏”——而不是把“不要遗漏”和“精炼材料”耦合在一起导致两个任务都做不好。因此一次检索往往会返回大量资料对这些材料进行“深加工”被单独提出来变成了Post-Retrieval环节这种深加工一般包括对材料的重排Re-Ranking和过滤Filtering。Re-RankingRe-Ranking顾名思义它在意的是“顺序”扮演着质量检查员的角色。它会对第一步捞回来的文档进行精细化的逐一审查然后按照与问题最相关的顺序列队把最有价值的几个比如Top 3放在队伍的最前面再交给最终的LLM。一方面“顺序”本来就是给Generator的额外辅助信息另一方面研究表明LLM更容易注意到放在开头和结尾的信息忽略中间的信息“顺序”研究是为了确保“最需要被关注”的信息放在最不容易被忽略的位置。要怎么对材料做重排要么就是训练一个新的模型Re-Ranker去专门承担这个任务要么就是调用一个现代大语言模型去帮忙甄别在调用现代大语言模型的时候还可以顺带利用它生成大量的合成数据或者把它作为“教师模型”蒸馏它的知识。按照Re-Ranker获得能力的方法可以把它分为无监督型、监督型。无监督重排序(Unsupervised Re-ranking)核心特征是完全不依赖任何带标签的训练数据。它们利用的是一个**现成的大语言模型off-the-shelf LLM**本身固有的、强大的语义理解能力来直接进行判断。比较典型的例子是In-Context RALM。对于Retriever返回的每一个文档D它都会将问题Q和文档D拼接起来然后输入给一个现成的LLM让LLM计算生成这个问题Q的概率P(Q∣D)。其背后的直觉是如果一份文档D能让这个问题Q看起来非常“自然”、非常“合理”即生成概率很高那么这份文档D大概率就是一份很好的参考资料。最终所有文档就按照这个生成概率从高到低排序。有监督重排序(Supervised Re-ranking)依赖大规模、高质量的标注数据集例如MS MARCO一个专门用于问答和排序任务的数据集来专门训练一个重排序模型。典型的例子有以下几种打分法这类模型学习的目标是“对文档的相关性打分”。Re2G(基于BERT的模型)它采用的是经典的交叉编码器Cross-Encoder**架构。将问题Q和文档D以“[CLS] Q [SEP] D [SEP]”的形式拼接后输入给BERT模型。BERT会对这两个文本进行深度信息交互最终通过[CLS]这个特殊标记对应的输出向量来预测一个单一的相关性分数。这种模型必须在像MS MARCO这样成千上万的标注样本上进行训练才能学会如何准确地输出相关性分数。它的能力完全来自于这些标注数据的“监督”是典型的有监督方法。生成法这类模型学习的目标是“生成”把“排序任务”巧妙地转换为了“生成任务”排序是在“生成”过程中获得的产品。T5风格的Re-Ranker当输入(查询,相关文档)时会生成一个特定的词比如true当输入(查询,不相关文档)时生成false。在重排时哪个文档让模型生成true的概率最高哪个就排在最前面。FiD-Light它没有一个独立的、显式的“排序”步骤。排序结果是从其“内部的注意力分数中”间接推断出来的。具体来说模型在被训练生成答案时也被要求同时生成一个**‘来源序列’**明确指出答案中的每个部分信息来自于哪篇原始文档。因此在重排时一篇文档在这个‘来源序列’中被引用的频率越高就被认为越相关排名也越高。它通过下游任务的实际贡献来反推文档的重要性。提示法它的核心思想是不再使用一个专门的、小型的“打分”模型如BERT而是直接利用像LLaMA这样强大的通用大语言模型**通过一个巧妙的Prompt设计高效地对整个候选文档列表进行排序。RankLLaMA核心机制是“滑动窗口”配对排序(Sliding Window Pairwise Ranking)它通过一个精心设计的Prompt让LLM在一次或极少数几次API调用中完成对整个列表的排序。具体工作流程如下系统会从文档列表 [D1, D2, D3, …, DK] 中取出一个小的‘窗口’例如D1和D2将它们与查询Q一起放入一个Prompt中让LLM判断哪个文档更相关。然后窗口向后滑动例如处理D2和D3重复这个比较过程。最终系统根据所有这些“两两比较”的结果构建出完整的排序链。这种方法的好处是直接利用了像LLaMA-3 70B或GPT-4o这样千亿级参数大模型的强大推理能力、世界知识和指令理解能力。对于需要深刻理解和复杂判断的查询其排序精度通常会超越那些只有几亿参数的、在特定数据集上训练的BERT-style Cross-Encoder。并且RankLLaMA不需要在任何排序数据集上进行微调只需要一个设计良好的Prompt就可以直接开始工作。这极大地降低了使用的门槛和工程成本。**Re-Ranking的数据增强**训练一个顶级的Re-Ranker最大的瓶颈是缺少海量的、高质量的“人工标注”训练数据。为了解决这个问题我们可以利用大语言模型LLM自身的能力自动地、大规模地“创造”出训练数据或“伪标签”。这种“无中生有”的过程就是数据增强。通过给Re-Ranker喂养这些更丰富、更多样的“合成”数据可以显著提升其性能。典型的例子可见DKS-RAC它引入了更丰富的“答案”信息来帮助训练。DKS在评估一个候选文档D的相关性时不仅计算Query和D的向量相似度它还会计算Gold_Answer(标准答案)和D的向量相似度。RAC则重新训练或微调一个Retriever模型让它去完成一个新任务预测在给定“查询”和“候选文档”的条件下生成“标准答案”的概率有多高即P(Answer|Query,Document)。这个概率值本身就成了一个非常高质量的“伪相关性分数”。**PROMPTAGATOR**利用文档反推问题。它会拿来一篇已有的文档D然后利用一个强大的LLM反向生成出多个可能指向这篇文档的问题Q1,Q2,Q3…。这样就凭空创造出了大量新的(Q1,D),(Q2,D)…训练样本。Filtering除了重排之外还有一种思路就是要把筛选出来的资料进行“过滤”过滤的目的是快速剔除掉那些完全不相关、质量低下或者不符合特定条件的文档以减轻后续、更昂贵的生成模块的负担。从“过滤”动作发生的“环节”可以把“过滤”技术分为内部过滤、外部过滤、动态过滤和综合过滤几个类别。**内部过滤**指利用下游的Generator模型来进行过滤不引入其他模块。**Self-RAG**利用大模型构建了“自我反思”的过滤机制。具体而言它首先进行并行生成与反思。面对一个问题先检索回一组比如5篇候选文档。它不会先过滤再生成而是并行地为每一篇文档都生成一个初步的答案。接着生成“反思词元”(Reflection Tokens)。在生成每个初步答案的同时模型会被训练去输出一些特殊的“反思词元”来对自己进行“打分”和“评价”。这些词元主要回答以下几个问题最后依据反思词元执行过滤:它会直接抛弃那些被标记为[Is_Relevant:No]或[Is_Supportive:No]的路径只保留质量最高的那个或几个路径来形成最终答案。BlendFilter**直接利用提示词来让大模型对检索材料进行过滤。BlendFilter会先通过三种方式“增强”原始查询再使用三种查询分别去知识库中进行检索得到三组不同的候选文档。BlendFilter会将这三组文档送入LLM。LLM的任务不是生成答案而是执行一个过滤指令例如“请评估以下文档列表移除所有与问题‘X’不相关或用处不大的文档。”LLM会输出一个经过它“审查”后、更干净、更相关的文档子集。最后系统再用这个经过LLM过滤后的“精华”文档集来生成最终答案。外部/结构化过滤这类方法明确地引入了一个外部的、独立的模块通常是另一个模型或者通过改变数据结构的方式来专门负责过滤任务。RECOMP**思想是“压缩即过滤”(Compression as Filtering)。与其直接把原始的、冗长的文档喂给LLM不如先让一个“压缩器”模型把每篇文档的“精华”提炼出来。如果一篇文档毫无精华可言那它的“摘要”自然就是空的也就实现了过滤。系统首先检索回Top-K篇候选文档。接下来系统会遍历每一篇文档Di并将其与原始查询Q一起送入一个专门的“压缩器(Compressor)”模型通常是一个经过微调的、小型的Seq2Seq模型如T5。这个压缩器的任务是为这篇文档生成一个与查询Q高度相关的简短摘要Si。这个压缩器被训练成如果它判断文档Di与查询Q完全不相关它就会生成一个空字符串作为摘要。最后系统将所有非空的摘要S1,S2,…拼接在一起形成最终的、干净且信息密集的上下文再送给主LLM进行答案生成。CRAG思想在于“分解-重组”形成精细过滤(Decompose-Recompose Filtering)。不再以“整篇文档”为单位进行判断而是将文档“打碎”对更细小的“知识碎片”**进行审查然后只将有用的碎片重新“拼凑”成一个全新的、高纯度的上下文。系统检索回Top-K篇候选文档。将每一篇文档Di分解成更小的、有一定重叠的“知识条(knowledge strips)”通常是句子或几个句子组成的小段。系统使用一个轻量级的、经过微调的相关性分类器在CRAG论文中这是一个T5模型来为每一个知识条打分判断其与原始查询Q的相关性。抛弃所有分数低于预设阈值的知识条。通过了审查的、来自不同原始文档的高分知识条重新组合成一个新的“黄金上下文”。动态过滤这类方法的过滤行为不是在生成答案之前一次性完成的而是动态地、持续地发生在LLM的解码生成答案过程之中。FiD-TF**核心思想是在解码的每一步动态地“剪枝”让解码器只关注当前最需要的信息。在解码器正准备生成答案中的第t个词时。在进行完整的、昂贵的多头交叉注意力计算之前系统会先用一种轻量级的方式比如只用一个注意力头或一个简单的打分函数快速地评估一下K篇文档中的哪些token对于生成下一个词t是最有帮助的。系统会动态地“屏蔽”**掉那些得分极低的、被判定为“此刻无用”的token。CoK认为LLM对于自己真正“懂”的知识其回答是稳定和一致的而对于自己“不懂”或“瞎猜”的知识其回答则是随机和易变的。可以利用这个特性来让“疑难问题”进入更复杂的处理流程。面对一个问题CoK会让LLM通过采样(Sampling)的方式多次、独立地生成不同的推理路径和答案。比如生成5个不同的回答草稿。系统会比较这5个回答草稿看它们是否指向同一个结论。如果(IF)一致性很高:比如5个草稿中有4个都得出了完全相同的答案。系统就认为模型对这个问题非常“自信”和“确定”。这个答案被采纳并且这个问题被**“过滤”掉**不再需要进行后续更昂贵的检索或修正步骤。如果(IF)一致性很低:比如5个草稿得出了4个不同的答案。系统就认为模型对这个问题感到“不确定(uncertain)”。后续处理:只有那些被贴上“不确定”标签的问题才会被送入CoK后续的、更复杂的“知识修正”环节通常涉及针对性的检索来填补知识空白。综合过滤这类方法的特点是不依赖某一种单一的、复杂的机制而是设计并融合了多种不同的、可能较为简单的过滤信号来构建一个综合的、强大的过滤模型。FILCO从三个不同的、互为补充的角度来评估检索到的内容并利用这些评估结果来训练一个高效的、专用的过滤模型。它同时使用了三种从简单到复杂的策略来给**“上下文句子”**打分字符串匹配、词汇重叠、信息增益从而识别到“最有用的句子”。它用已有的数据集包含查询、上下文文档标准答案自动化标注形成一个庞大的、带有精细分数标注的训练集然后用这个训练集去训练“专门为相关性打分的”模型。从而实现快速的“相关性”判断和过滤。02. Generation生成阶段Generation这是RAG流程的“最后一公里”。在经历了检索、过滤和重排序等一系列“备菜”工序后我们终于得到了最优质的“相关资料”现在到了“生成答案”的时刻。Generation环节的目的是好好理解吸收“相关资料”再依据上下文充分调动自己的组织能力生成连贯、符合逻辑、准确的回答。增强理解吸收“相关资料”这个环节可以被称为**“增强”**因为这是一个对已有数据进行处理增强的过程。与查询结合(Enhance with Query)这是最基础直接的方法。其核心是将检索到的文档和用户问题简单地、直接地融合在一起然后进行处理。重点在于融合的机制。In-Context RALM这是最经典的“大杂烩”做法。它粗暴地将检索到的文档直接拼接到用户问题的前面形成一个超长的Prompt[检索到的文档文本][用户的原始问题]。然后把这个prompt整个喂给LLM。**RETRO它采用了一种名为“分块交叉注意力”Chunked Cross-Attention**的特殊机制。RETRO是一种Transformer模型是由许多**层Layers**堆叠而成的。RETRO的层分为两种类型并且是交替出现的标准自注意力层(Standard Self-Attention Layer)在这些层中模型专注于处理输入的原始文本即用户的Query。RETRO交叉注意力层(RETRO Cross-Attention Layer)在这些层中模型被设计用来处理外部信息。模型的整体架构可能是这样的[…-自注意力层-自注意力层-交叉注意力层-自注意力层-自注意力层-交叉注意力层-…]每当数据流在模型中传递到预设的“交叉注意力层”时查阅动作必然发生模型综合“查询”和“资料”两种信息。集成融合(Enhance with Ensemble)这种技术核心在于对多个信息源的“集成”与“融合”。FiD(Fusion-in-Decoder)这是一个极具影响力的架构。它首先将用户的问题分别与每一篇检索到的文档进行配对并独立地送入编码器Encoder进行处理得到多个独立的“初步加工品”。然后在解码器Decoder阶段它将所有这些加工品拼接在一起让解码器“眼观六路”综合所有信息源来生成最终答案。REPLUG在推理生成时它会为每一篇检索到的文档都单独创建一个Prompt文档问题然后让LLM独立地生成多个候选答案。最后它会像一个评审团一样根据每篇文档的初始相关性得分等标准对这些候选答案进行加权投票或聚合形成一个最好的最终答案。反馈循环(Enhance with Feedback)****这类方法在整个生成过程包含了一个或多个迭代式的“反馈-修正”循环。**PRCA**它在Retriever和Generator之间建立了一个反馈循环。它会根据生成器产出答案的好坏ROUGE-L分数等反馈信号反过来优化和调整应该提供给Generator的上下文内容。但是要注意这个“循环”是发生在“训练生成上下文的Adapter”阶段在实际Reference时因为Adapter都训练完了就只有一次线性的“检索-加工-生成”流程了。DSP(Demonstrate-Search-Predict)DSP本质上是一种先进的提示工程Prompting框架它通过在提示词中‘演示’Demonstrate如何完成复杂任务来引导LLM进行多跳推理。LLM首先生成一个初步的答案或一个需要验证的“断言”然后系统会把这个“断言”当作新的查询去检索证据接着LLM会根据新证据来修正和优化自己的答案。这个“生成-检索-修正”的过程会不断迭代直到满足设定的阈值。Selfmem模型会先生成一大堆候选的输出然后根据某种标准如BLEU/ROUGE分数自我评估选出其中最好的一个。这个被选出的“最佳答案”会被存入“记忆”中作为下一轮生成任务的额外参考。RECITE它让模型针对一个问题从自己的内部知识中生成多次、多样化的“背诵”Recitations。然后通过“自洽性检查”Self-consistency比如少数服从多数的投票来选出最可靠、最一致的答案。定制化在生成的时候**个性化定制Customization的策略也值得关注即如何让答案更符合用户的个人特点。**个性化定制的核心思路分为两大类内容对齐依据用户的静态画像和上下文自适应依据用户的动态行为和偏好。内容对齐(Content Alignment)核心思想是让生成的内容与“用户是谁”保持一致。这通常依赖于一个相对静态的、预先定义好的用户画像Persona Profile。系统会检索与这个画像相关的信息并确保回答的风格、口吻、引用的背景故事都符合这个设定好的人物性格。典型的例子有LAPDOG核心是丰富一个静态的用户画像。它首先获取一份基本的人物简介然后利用一个“故事检索器”去外部知识库中查找与这个人物性格、背景相符的趣闻轶事或背景故事。最后它将这份“基本简介背景故事”的增强版画像作为核心上下文来生成更具个性的对话。LAPDOG的核心价值在于“角色扮演”**。**它适用于所有不满足于简单信息传递而是追求深度情感连接、角色一致性和对话趣味性的场景。上下文自适应(Contextual Adaptation)核心思想是让生成的内容实时地适应“用户现在需要什么”。这依赖于对用户动态行为、即时反馈和当前情境的捕捉。PersonaRAG采用了一个多智能体Multi-agent系统像一个时刻观察你的“数字助理团队”。这个团队会持续分析你在当前对话中的一举一动你点击了什么、追问了什么、对哪个答案表示满意等。这些实时的、动态的行为数据会立刻被用来调整和优化下一步的回答。ERAGent引入了一个“个性化LLM阅读器”模块。这个模块在生成最终答案时不仅会考虑检索到的事实知识还会额外读取并整合用户预先设定好的个人偏好例如“我是素食主义者”、“我关心环保”、“我只看喜剧电影”等。ROPG两种思路的“集大成者”ROPG的设计非常全面它将个性化融入了生成前和生成后两个阶段。生成前内容对齐在检索阶段它会先分析用户画像和当前问题然后智能地选择最合适的检索策略比如是该用关键词检索还是语义检索或是最近历史记录检索。这一步确保了“备菜”环节就已经与用户的静态背景对齐了。生成后上下文自适应在使用不同策略生成了多个候选答案后它会启动一个评估模型根据答案本身的质量和与用户当前需求的匹配度选出最个性化的那个答案。这个选择过程本身就是一种动态的、基于反馈的适应。03. RAG系统的评估RAG系统怎么样才算表现得好呢如果一味的和“标准答案”逐字比较显然并不能体现出RAG系统的能力毕竟回答问题的本质是“抓住精髓”而不是“死记硬背”。RAG系统的评估方式经历了从“简单”到“复杂”从“单一”到“体系化”的发展路径。这些评估方法有各自的侧重点是属于“按照业务场景”组合使用的状态。我会按照“时间线”来介绍一下都有一些什么评估指标把“详细的指标含义和计算方式”放在每个阶段后面的图片上。阶段一“端到端”的黑箱评估时代核心理念“只看结果不问过程”。这个阶段的评估方法非常直接就是将整个RAG系统看作一个“黑箱”只关心它在特定下游任务上的最终表现。问答任务(QA)在如SQuAD, Natural Questions, TriviaQA等标准数据集上计算EM精确匹配率和F1分数。事实核查任务(Fact Checking)计算准确率(Accuracy)。对话/摘要任务计算ROUGE和BLEU分数衡量与人类参考答案的重合度。这种端到端的评估方式就像期末考试只给一个总分。如果一个RAG系统得分很低我们无法知道问题到底出在哪里。这种评估方式很难指导我们进行针对性的系统优化。阶段二“解耦式”的白箱分析时代核心理念“既看结果也看过程”。人们不再把RAG看作一个黑箱而是将其拆解为检索和生成两大模块并分别对它们进行“体检”。评估检索质量引入传统IR指标PrecisionK,NDCG,MRR等衡量Retriever“找得准”和“排得好”的能力。专门针对RAG的指标上下文相关性(ContextRelevance)评估生成质量传统指标继续使用EM,F1,ROUGE等指标但在控制了检索质量的前提下更能反映Generator本身的信息整合与语言组织能力。专门针对RAG的指标基础能力答案忠实度(Answer Faithfulness)、答案相关性(Answer Relevance)。附加能力Noise Robustness(噪音鲁棒性)、Negative Rejection(拒答能力)、Information Integration(信息整合能力)、Counterfactual Robustness(反事实鲁棒性)核心创新自动化与体系化这个时代最重要的标志是自动化评估工具的兴起尤其是**“LLM当裁判”LLM-as-a-Judge**范式的普及。以RAGAS,ARES,TruLens为代表的工具利用GPT-4等强大模型实现了对“三大质量分数”的自动化、规模化评估。同时更体系化的“四项核心能力”噪音鲁棒性、拒答能力等评估框架被提出并通过RGB,RECALL等专业“考卷”基准来进行压力测试。这种解耦式评估虽然精细但它依然是基于一个相对静态的“检索-生成”流水线模型。对于那些流程更动态、更复杂的“高级RAG”系统这种评估方式开始显得力不从心。阶段三“一体化”的智能代理评估时代(约2025年及未来)核心理念评估“思考”过程而非孤立环节随着Self-RAG,DSP,Multi-agentRAG等“智能代理”型RAG系统的出现RAG不再是一个简单的线性流程而是一个会思考、规划、迭代、反思的动态系统。这个过程中面临了新的挑战评估的焦点也必须随之改变。新的评估挑战过程合理性系统为了回答一个复杂问题进行了3轮检索。我们不仅要评估最终答案还要评估它中间生成的每一次查询是否合理它的“思考路径”是否高效工具使用能力当系统如ROPG可以选择多种检索工具时它是否在正确的时机选择了正确的工具交互与适应性在多轮对话中系统如PersonaRAG是否能有效利用历史信息它的个性化调整是否真的提升了用户满意度成本效益得到一个好答案系统总共调用了多少次LLM总耗时多少“性价比”如何新兴的衡量方法轨迹评估TrajectoryEvaluation不再只看最终答案而是评估整个任务完成的“轨迹”Thought-Action-Observation序列对每一步的决策进行打分。交互式评估InteractiveEvaluation在模拟环境或与真人交互中评估系统在多轮对话中的任务完成率、用户满意度、对话效率等。综合效益评估引入质量分/API成本或质量分/延迟等指标评估系统的综合“效能”而不仅仅是“效果”。当前业界RAG的核心技术栈到这里综述的内容差不多就介绍完了不过看了这么多动态高级的RAG系统设计我还是非常好奇现在业界日常使用的RAG系统是哪种形态于是我要求Gemini老师对于现状进行分析。我看完觉得还是挺有理有据的狗头感觉Gemini老师比我聪明多了工业界负责在成本、稳定性、可维护性和性能之间做出权衡将那些已经被验证、足够成熟、性价比高的技术应用到产品中。所以现在业界的主流技术栈更像是学术界1-2年前被验证过的“最佳实践”的集合体。当前业界RAG的核心技术栈一个典型的生产级RAG系统就像一个乐高积木由以下几个成熟的模块搭建而成A.编排与框架(Orchestration Frameworks)技术选型LangChain和LlamaIndex。业界现状这两个框架是绝对的主流。它们提供了标准化的接口将数据处理、嵌入、检索、生成等所有环节串联起来极大地降低了开发门槛。绝大多数公司都会基于这两者或其中之一来构建自己的RAG应用。B.数据处理与向量化(Data Processing Vectorization)分块(Chunking)最常用的还是固定大小分块或递归字符分块。虽然有更高级的语义分块等方法但简单的策略因其稳定可控而被广泛使用。嵌入模型(Embedding Models)大家普遍会参考**MTEB(Massive Text Embedding Benchmark)**排行榜。开源模型BGE-M3,Jina-v2等在性能和效率上取得很好平衡的模型是热门选择。闭源模型如果公司本身就在使用OpenAI或Cohere的生态那么OpenAItext-embedding-3-large/small和Cohereembed-v3也是非常常见的选择。C.向量数据库(Vector Databases)专用数据库Pinecone,Weaviate,Milvus,Zilliz等是云原生、专门为向量检索设计的数据库性能强大。传统数据库扩展**PostgreSQL(配合pgvector插件)和Elasticsearch(支持向量检索)**也非常流行。因为很多公司已经有了这些基础设施使用它们可以降低技术栈的复杂性。D.检索策略(Retrieval Strategy)“基础款”语义检索Semantic Search。这是所有RAG系统的标配。“进阶标配”混合检索Hybrid Search。即“语义检索关键词检索如BM25”这已经成为业界共识的最佳实践因为它可以同时解决“意思相近”和“关键词精确匹配”两种需求。绝大多数向量数据库都原生支持混合检索。“常用优化”重排序Re-Ranking。在初步检索后使用一个更强大的交叉编码器Cross-Encoder模型如Cohere的Re-rankAPI或开源的BGE-Re-ranker对前几十个结果进行精排是提升检索质量性价比最高的方法之一。E.生成模块(Generation Module)技术选型闭源的、强大的商业LLM是绝对的主流。业界现状出于对稳定性、安全性和最强性能的追求绝大多数生产系统都会直接调用OpenAI(GPT-4o,GPT-4-Turbo),**Anthropic(Claude3 Opus/Sonnet)或Google(Gemini 1.5 Pro)**的API。F.评估与监控(Evaluation Monitoring)技术选型“阶段二解耦式白箱分析”正是当前业界的主流。业界现状使用RAGAS等工具通过“LLM当裁判”的方式在开发阶段自动化地评估上下文相关性、答案忠实度、答案相关性。使用LangSmith,TruLens等平台对RAG应用的内部流程进行追踪、调试和监控。RAG的发展趋势高级RAG技术正在被逐步验证和采纳的发展趋势代表着“家用车”正在吸收“F1赛车”的技术。趋势一从“粗糙检索”到“智能查询”现状检索主要依赖用户输入的原始文本。趋势RAG系统正在学会“优化问题”。我们讨论过的查询改写Query Rewriting、多查询检索Multi-Query Retrieval正在被主流框架LangChain/LlamaIndex集成变得越来越易用。更前沿的迭代式、自我修正式的检索如CRAG的思想正在被领先的团队进行小规模试验。趋势二从“单一流水线”到“决策智能体”现状RAG大多是一个固定的线性流程。趋势Agentic RAG是最明确的未来。系统开始具备决策能力。我们讨论的ROPG动态选择检索策略、Self-RAG决定是否需要检索、DSP多步规划和推理等思想正在被整合让RAG系统能够根据问题的复杂性自主地规划和执行一个动态的、非线性的解决路径。趋势三从“通用答案”到“深度个性化”现状个性化程度还比较浅。趋势PersonaRAG和ERAGent中体现的思想正在被更多面向C端用户的应用采纳。通过结合用户的历史数据、会话行为、预设偏好RAG系统不仅能提供事实正确的答案还能提供风格、口吻、内容都千人千面的回答。趋势四从“组件评估”到“综合效能评估”现状主流是评估检索和生成两个模块的质量。趋势随着Agentic RAG的复杂化评估也必然走向“阶段三”。企业会越来越关注综合效益我们讨论过的轨迹评估评估决策链的好坏和成本效益评估衡量API成本、延迟和答案质量的综合“性价比”将成为评估复杂RAG代理的标准。小结到这里关于Text-based RAG介绍就告一段落了~在Post Retrieval阶段可以使用**“重排”和“过滤”**两种技术来对已经检索到的资料进行“精细化处理”。“重排”在意的是**“顺序”**这个顺序给下游的Generator提供信息也保证了关键信息不要被放在容易被忽略的位置。“过滤”是希望减少一些冗余的、错误的或者是不相关的信息让Generator的生成更加顺滑。无论是“重排”还是“过滤”要想得到好的效果学者们有好用的两种路线要么就别出心裁的训练/微调一个专业的模块来承担这些任务要么就利用“现代大语言模型”的能力既可以蒸馏训练也可以直接使用提示词把“现代大语言模型”调教成自己想要的样子。在Generation阶段需要处理前面环节筛选出来的所有材料这个**“处理过程”非常重要既可以把这些材料跟“查询”相结合**也可以用额外的模块来“针对Generator的口味/融合多个文档”生成“上下文”这种生成也不必是“一次完成”的可以利用“反馈-迭代”来不断优化。除此之外为了使得生成的内容更加符合特定用户的需求可以增加静态的用户画像作为上下文也可以在和用户的对话中实时记录用户的偏好从而生成更加适配“当下问题和情境”的回答。通过对Naive RAG系统每个阶段的进化技术进行分析我们可以看见一条明显的从静态到动态从流水线到自适应的转变。然而虽然学术界已经开发出了很多种比较复杂的RAG系统但是当前业界的主流RAG技术栈是一个以实用性、稳定性和高性价比为核心的成熟组合。而那些高级RAG技术则构成了未来2-3年内业界技术演进和升级的主要路线图。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

东莞哪种网站推广好株洲搜索引擎优化

CellProfiler生物图像分析实战教程:从入门到精通的完整指南 【免费下载链接】CellProfiler An open-source application for biological image analysis 项目地址: https://gitcode.com/gh_mirrors/ce/CellProfiler CellProfiler作为一款专为生物学家设计的开…

张小明 2025/12/31 23:55:02 网站建设

个人网站可以做导航wordpress301

HarmonyOS模块配置终极指南:5步快速掌握module.json5核心技巧 【免费下载链接】harmony-utils harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类,致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、…

张小明 2026/1/2 6:45:56 网站建设

互联网建设与管理南宁百度seo排名

「AI元人文构想」对话全记录:从困境、构想到系统自洽的七十日一、 缘起:穿透表象的野心与链接的失效 初始接触:用户首先分享了一篇题为《穿透表象:在“人类在环规则在场语境主权”框架下重审AI元人文构想的风险与未来》的论文摘要…

张小明 2026/1/2 4:59:02 网站建设

建设网站的法律可行性分析xyz后缀的网站

1, 概述 1.1 课题背景 开发一个学生成绩管理系统,采用计算机对学生成绩进行处理,进一步提高了办学效益和现代化水平。为广大教师和学生提高工作效率,实现学生成绩信息管理工作流程的系统化、规范化和自动化。现在我国中学的学生…

张小明 2026/1/1 21:09:26 网站建设

中国市政建设局网站交互网站图

在大模型时代,算法与系统的边界日益模糊。想要复现 DeepMind 或 OpenAI 的工作,光会设计 Loss Function 已经不够了,必须深入理解底层的算力调度。本文开始从零手写 CUDA Runtime API 的过程。要求在不依赖高级框架的前提下,直接通…

张小明 2026/1/1 19:40:42 网站建设

专业网站建设公司在线咨询基于php+mysql的网站开发

如何在macOS上轻松转换QQ音乐加密文件:QMCDecode完整使用指南 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载目录&#xff0…

张小明 2026/1/1 10:07:01 网站建设