扬州市住房和城乡建设网站手机摄影网站首页

张小明 2026/1/9 4:13:21
扬州市住房和城乡建设网站,手机摄影网站首页,无极电影,多功能创意小产品设计本文系统介绍大模型应用开发的核心技术#xff0c;包括思维链(CoT)、零样本推理、树状思维链等提示技术#xff0c;以及AgentVerse、AutoGen等多智能体框架。这些技术帮助开发者基于现有大模型构建应用#xff0c;提升模型在内容理解、分析和推理方面的能力#xff0c;解决…本文系统介绍大模型应用开发的核心技术包括思维链(CoT)、零样本推理、树状思维链等提示技术以及AgentVerse、AutoGen等多智能体框架。这些技术帮助开发者基于现有大模型构建应用提升模型在内容理解、分析和推理方面的能力解决复杂业务问题是入门大模型应用开发的必备知识。大模型应用开发不是开发大模型本身那是大模型开发的工作大模型应用开发要做的事情是基于一个已经开发完毕的大模型完成特定的业务需求在这个过程中大模型扮演的是一个内容理解、分析、推理的角色在大模型应用开发中称需要大模型进行处理的内容为上下文这篇文章介绍为什么大模型可以作为内容理解、分析、推理角色的理论基础后续介绍大模型应用开发常用的Langchain、LangGraph、MCP、扣子平台的使用。首先要理解一个关键的概念“Prompt”我们现在习惯称其为“提示词”。好的 prompt 相当于在不改变模型权重的情况下为其“加载”了一个虚拟的“任务适配器”Prompt 不是给模型“灌输”新知识而是教会它“如何使用”已有的知识。一 思维链(CoT)原论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》思维链可以看做所有大模型应用开发的开端。作者通过实验发现了一个有趣的现象我们在大模型输入提示Prompt中加入详细的推理过程后大模型也会做出类似的推理这样大模型在回答问题时会更加准确把这种方法称作思维链(Chain-of-Thought,CoT)。在 CoT 提出之前为了让大模型对于问题的回答更加准确我们会在输入提示中举出一些例子让大模型模仿这些例子的关系进行输出这种方法在需要多步推理的任务上如数学应用题、常识推理表现很差模型往往无法生成正确的中间步骤导致最终答案错误。CoT的做法如下注意这里的Q、A是包含在大模型输入中的是给大模型的提示信息(我们现在称作Prompt)来引导大模型的输出也产生类似的结构模式这样大模型在面对用户的新问题Q后也会像提示中的Q-A对儿一样也对Q产生对应的推理再进行回答提高回答的准确性。CoT揭示了一个事实大规模预训练模型具备内在的推理能力这种能力在合适的引导后会被激活。这个事实很重要如果不存在这个事实现在的所有大模型应用都无从谈起。二 大模型的零样本推理能力原论文《Large Language Models are Zero-Shot Reasoners》这篇论文的核心贡献在于它用一个极其简单的方法揭示了大语言模型LLM被严重低估的零样本Zero-Shot推理能力并为后续的研究设定了一个新的基线。在论文发表之前业界普遍认为LLM在简单的、直觉性的任务上表现很好但在需要多步、复杂推理的任务上如数学应用题、符号逻辑等LLM 表现很差即使模型规模达到百亿甚至千亿级别。为了解决这个问题当时最前沿的技术是 Chain-of-Thought (CoT)提示。CoT要求研究者为每个任务精心设计几个“思维链”示例提示然后让模型模仿这个过程进行推理这种方法效果显著但依赖于人工编写的、任务特定的少样本示例。因此核心问题就是LLM的强大推理能力是否真的依赖于这些人工编写的少样本示例还是它们本身就具备零样本推理的潜力只是我们没有找到正确的方法去激活作者的答案是LLM本身就具备强大的零样本推理能力他们提出的解决方案简单到令人难以置信在原始问题后面直接加上一句固定的提示语“Let’s think step by step.” (让我们一步一步地思考)模型就会针对问题产生推理这个方法被称为 Zero-shot Chain-of-Thought (Zero-shot-CoT)。论文指出为了获得最佳效果Zero-shot-CoT过程可以分为两个阶段1.推理提取Reasoning Extraction:输入: Q:[原始问题]. A: Let’s think step by step.模型会输出: 一段自由生成的、分步的推理过程。2.答案提取Answer Extraction:输入: 将步骤1的完整输出人工输入的问题推理提示语Let’s think step by step模型被引导生成的推理过程再加上一个答案提取提示(如 Therefore, the answer (arabic numerals) is)再输入到大模型中。模型输出: 关于问题的最终答案。这种方法完全不需要任何任务特定的示例仅靠一个通用的触发词就能让模型展现出复杂的推理能力。Zero-shot-CoT 的效果随着模型规模的增大而显著增强。小模型使用这个提示效果不佳但像 GPT-3这样的超大规模模型则能从中获益这说明这种零样本推理能力是大模型涌现的特性。这篇论文的意义远不止于提出一个新技巧它带来了几个深刻的洞见1)简单提示的巨大威力 复杂的推理能力可以通过极其简单的语言指令来激发。这暗示了LLM的内部表征可能已经编码了丰富的、结构化的知识和推理模式只需要一个正确的“钥匙”提示来解锁。2)迈向通用认知能力 一个单一的、通用的提示能在如此多样的任务上生效这强烈暗示了LLM可能具备某种通用的、高层次的认知能力如通用逻辑推理而不仅仅是针对特定任务的狭窄技能。这为研究 AI 的通用智能提供了新的思路。三 树状思维链(ToT)原论文《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》ToC让大模型(LLM)不再只是答案生成器而是变成问题解决规划者评估者论文中的示意图如下基于人工智能先驱们的工作ToT将“求解问题”看做是在问题解空间中进行搜索的过程ToT必须要解决4个问题1)思维分解针对输入问题的每个思维是什么2)思维生成已经解决了思维分解中的一个子问题产生了一个状态如何根据这个状态产生下一阶段的思维(扩展思维树结构)3)状态评估如何评估一个部分解的好坏4)搜搜策略使用什么方法在生成这棵思维树中搜索最终可行解思维分解思维生成状态评估搜索算法ToT已经具备了智能体的视角四 Toolfromer原论文《Toolformer: Language Models Can Teach Themselves to Use Tools》这篇论文的核心思想极具颠覆性它通过一种新颖的、自监督的数据生成和过滤方法让 LLM 学会了在何时、以何种方式主动调用外部工具并将结果无缝整合到自己的文本生成中。LLM 的固有缺陷尽管 LLM 能力强大但它们存在一些根本性局限1)知识过时无法获取训练数据截止日期之后的信息。2)事实幻觉容易编造看似合理但错误的事实。3)数学能力弱难以进行精确的算术计算。4)缺乏实时感知不知道当前日期、时间等。现有解决方案的不足1)依赖大量人工标注有些方法需要人类为每个任务-工具对编写大量示例成本高昂且难以扩展。2)任务特定很多工具集成方案被绑定在特定任务上缺乏通用性。因此核心问题是能否设计一种通用、自监督的方法让 LLM 自主学会使用多种外部工具从而克服其固有缺陷同时不损害其原有的语言建模能力Toolformer 分为四个主要步骤(1) 采样潜在的API调用(Sampling)给定一个预训练好的 LLM如 GPT-J和一个纯文本语料库如 CCNet。对于每种工具如计算器、问答系统研究人员只提供极少数的人工编写的API 使用示例。利用 LLM 强大的 In-Context Learning (上下文学习) 能力让它“模仿”这些示例在语料库的任意位置“猜测”可能有用的 API 调用。例如在句子 “400 out of 1400…” 中模型可能会插入 [计算器(400/1400)]。(2) 执行API调用(Executing)将上一步采样出的所有潜在 API 调用真实地执行并获取结果。(3) 过滤有用的 API 调用 (Filtering) :这是最关键的一步核心思想 不是所有采样的 API 调用都有用。 Toolformer 提出了一个完全自监督的、基于语言建模损失perplexity。具体做法对于一个在位置 i 插入的 API 调用及其结果 r计算两种情况下的损失L 将完整的 API 调用包括结果作为前缀计算模型预测后续 token 的损失。L- 计算a) 完全不插入任何东西b) 只插入 API 调用但不包含结果两种基线损失的最小值。过滤标准 如果 L- - L τf一个阈值说明提供这个 API 调用及其结果显著降低了模型预测后续文本的难度即降低了困惑度。那么这个 API 调用就被认为是“有用的”会被保留下来。(4)模型微调 (Finetuning)将所有被过滤后保留下来的、带有真实 API 调用和结果的文本组成一个新的增强数据集 C。在这个新数据集 C上对原始 LLM 进行微调。推理时当模型生成到时系统会暂停解码调用相应的API获取结果然后将结果和结束标记插回继续生成。Toolformer和MCP都是赋予大模型调用外部工具的能力MCP和Toolformer的比较如下大模型如何知道自己应该调用外部函数这是个极其深刻的问题也是当前AI研究的前沿难点。答案是大模型其实并不真正“知道”自己不知道它只是在模仿人类在类似情境下的行为模式。具体来说有以下几种机制在起作用基于训练数据的模式匹配 (Pattern Matching)在训练数据中存在大量这样的模式“今天的日期是 → [查询日历 API]” “计算 123×456 ? → [使用计算器]” “巴黎的天气如何 → [调用天气服务]”当模型看到一个高度结构化、明确指向外部信息的问题时如包含“今天”、“计算”、“最新股价”等关键词它会激活这些记忆中的模式从而生成工具调用。本质 不是“我知道我不知道”而是“当问题长成这样时人类通常会去查一下所以我也会”。基于不确定性信号(Uncertainty Heuristics)虽然 LLM 没有显式的置信度输出但它的token 概率分布可以反映不确定性。如果模型对某个事实的答案概率很低如多个候选实体概率接近它可能会倾向于生成一个模糊回答或者生成一个查询动作。在 Toolformer 的过滤机制中这一点被巧妙利用只有当 API 调用能显著降低后续 token 的预测损失即让答案更确定时该调用才会被保留。这相当于在训练阶段就教会了模型“当你卡住时查一下会让后面更好写”。通过 Prompt / 微调进行行为塑造(Behavior Shaping)在 Function Calling 的设定中训练数据会明确展示用户 “现在几点” 助手 {function: get\_current\_time} 系统 2025-12-10 14:00 助手 “现在是下午两点。”模型通过学习这种三段式交互内化了一种策略对于某些类型的问题不直接回答而是先请求工具。这不是“自知之明”而是一种习得的响应策略。当前局限模型无法真正评估自身知识边界① 幻觉问题依然存在如果一个问题看起来很普通如“爱因斯坦哪年出生”但模型记错了比如记成1880年而非1879年它不会主动去查因为它“自信”地认为自己知道。② 过度调用 or 调用不足模型可能在不需要时调用工具浪费资源也可能在需要时没调用给出错误答案。③ 真正的“元认知”缺失人类会说“我不确定让我查一下”。LLM 只会说“让我查一下”——但它并不真的“不确定”它只是在复现一个成功的对话模板。大模型并非通过自我反思来决定调用工具而是通过统计学习识别出“哪些问题在历史上常被人类外包给工具”并模仿这一行为。未来的研究方向如 Self-Refine, Reflexion, Active Tool Retrieval正试图赋予模型更强的元认知能力让它能基于内部状态如预测熵、一致性检查主动判断是否需要外部帮助。但在当前阶段这一切仍是高级的模式模仿而非真正的“意识”或“自知”。五 Plan and Solve原论文《Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models》旨在解决当时主流零样本推理方法Zero-shot-CoT的三大核心缺陷。论文首先指出尽管“Let’s think step by step”这种 Zero-shot-CoT 提示非常简单有效但它在实践中存在三个主要错误类型1)计算错误(Calculation Errors, 7%)LLM 在执行算术运算时出错。2)步骤缺失错误(Missing-Step Errors, 12%)在复杂的多步推理中模型跳过了关键的中间步骤。3)语义误解错误(Semantic Misunderstanding Errors, 27%)模型未能正确理解问题的含义或上下文。为了解决上述问题特别是“步骤缺失”作者提出了 Plan-and-Solve(PS) 提示法。其核心思想非常直观模仿人类解决问题的过程先制定计划再执行计划。PS 提示包含两个明确的阶段1)规划 (Plan)让 LLM 首先理解问题并制定一个解决该问题的分步计划。2)求解(Solve)让 LLM 严格按照这个计划一步步执行并得出最终答案。示例Zero-shot-CoT: “Let’s think step by step.”Plan-and-Solve(PS): “Let’s first understand the problem and devise a plan to solve the problem. Then, let’s carry out the plan and solve the problem step by step.”这个简单的替换会引导模型从“边想边做”转变为“先想好再做”从而生成更完整、更有条理的推理链。六 ReAct原论文《REACT: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS》这篇论文的核心思想是将人类解决问题的两种基本能力“思考”Reasoning和“行动”Acting融合到大语言模型LLM解决问题的过程中。它超越了之前仅关注内部推理如 Chain-of-Thought或仅关注外部行动如Toolformer的方法提出了一种交替进行思考-行动思考-行动相互促进的新智能体范式。理论上智能体的上下文越长信息越丰富智能体采取正确行动的概率越大但是过长的上下文会使推理关键线索困难这也是为什么ReAct要采取思考-行动-观察流程的原因及时的总结更正自己好过于错误已经累积无法挽回再行动。七 AgentVerse原论文《AGENTVERSE: FACILITATING MULTI-AGENT COLLABORATION AND EXPLORING EMERGENT BEHAVIORS》这篇论文的核心目标是构建一个通用、可扩展的多智能体Multi-Agent框架以解决那些开放性、复杂且需要跨领域知识的任务。它超越了单个LLM单智能体的局限通过模拟人类团队协作的方式让多个专业化智能体共同工作。单智能体的局限性 单个 LLM 虽然强大但在处理开放域、多步骤、需要专业领域知识或多方协商的任务时容易出现幻觉、逻辑不一致或能力不足的问题。现有 Agent 系统的不足1)大多专注于单智能体或固定角色的协作缺乏灵活性。2)难以处理动态、开放式的任务这些任务没有预定义的解决路径或明确的角色分工。AgentVerse 的设计灵感来源于人类团队的组织结构其核心是一个分层、模块化的架构主要包含以下关键组件(1) Role Assigner (角色分配器)功能作为整个团队的“领导者”或“项目经理”。 工作流程接收用户的开放性任务描述例如“为一家新咖啡店制定开业计划”。分析任务需求识别出完成该任务所需的专业知识领域。动态招募recruit一组最合适的专家智能体并为每个智能体分配清晰的角色和职责例如“市场营销专家”、“财务分析师”、“室内设计师”。关键点 角色分配是按需、动态的而非预设的。(2) Solvers (求解器/专家智能体)功能 执行具体工作的“专家”。 特点每个 Solver 是一个 LLM 实例被赋予了特定的角色描述role description这引导其从该领域的视角思考问题。它们可以独立工作解决分配给自己的子任务也可以相互交流通过共享的对话历史。在 AgentVerse 中Solver 的工作通常遵循 ReAct 或类似的范式即生成 Thought - Action - Observation 的轨迹。(3) Reviewers (评审员)功能 负责质量控制和迭代改进。 工作流程审查由 Solvers 生成的初步解决方案。基于其专业知识提供具体的、建设性的批评意见critic opinions。这些意见会被反馈给 Solvers用于生成改进后的新方案。关键点 引入了多轮、闭环的反馈机制确保最终输出的质量。(4) Evaluator (评估员)功能 对最终的解决方案进行全面、多维度的评估。 评估维度 通常包括 Completeness完整性、Functionality功能性、Readability可读性、Robustness鲁棒性等并给出 0-9 的分数。 作用 不仅用于衡量性能其详细的评估报告也可以作为未来改进的指导。AgentVerse不仅是一个多智能体框架它更是一种新的问题解决范式。它认识到对于现实世界中最棘手的开放性问题答案往往不是来自一个无所不知的“神谕”而是来自一个多元化、专业化且善于沟通协作的团队。通过巧妙地结合动态角色分配、专业化智能体、以及基于评审的迭代改进AgentVerse 成功地将 LLM 的能力从单点突破扩展到了系统集成为处理复杂、真实世界的任务提供了一个强大而灵活的基础设施。​最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】​​为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。​​资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌​​​​如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**​
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

四川网站建设电话昆明网站建设开发

C 语言进阶之避坑指南:动态内存分配 —— 裸机开发中 “地主余粮” 的管理陷阱 一、动态内存分配的 “坑”,你踩过吗? “malloc 后忘记 free,程序运行久了内存溢出崩溃?” “free 后未置空指针,后续操作触发野指针异常?” “动态分配数组时少算一个字节,导致内存越…

张小明 2026/1/6 21:28:29 网站建设

中国站长网入口wordpress手机上导航俩字

CodeSandbox云端开发平台:多框架一站式解决方案深度解析 【免费下载链接】codesandbox-client 项目地址: https://gitcode.com/gh_mirrors/cod/codesandbox-client 在现代前端开发领域,CodeSandbox作为革命性的云端开发平台,彻底改变…

张小明 2026/1/6 21:27:56 网站建设

自己可以自己做公司的网站吗新的电商平台有哪些

sandsifter硬件安全实战:挖掘x86处理器的隐藏威胁 【免费下载链接】sandsifter The x86 processor fuzzer 项目地址: https://gitcode.com/gh_mirrors/sa/sandsifter 在当今数字化时代,硬件安全已成为信息安全领域最容易被忽视的薄弱环节。x86处理…

张小明 2026/1/6 21:27:24 网站建设

电子商务网站开发形式有重庆企业网站制作外包

Yakit漏洞描述理解:基于LLama-Factory微调NLP分类器 在现代安全测试工具日益智能化的背景下,如何让系统“读懂”漏洞报告中的自然语言描述,成为提升自动化分析能力的关键瓶颈。以 Yakit 这类面向实战的安全平台为例,每天都会收到大…

张小明 2026/1/9 5:03:28 网站建设

有哪些推广网站中国住房和建设部网站首页

在快递鸟系统与小程序对接的实际操作中,商家常会遇到国际物流支持、功能实现、版本差异等各类产品相关问题。本文整理了10个高频问题及详细解答,助力商家快速厘清疑问、顺畅完成对接。11. 支持国际物流发货吗?目前暂不支持国际物流发货。国内…

张小明 2026/1/9 7:06:05 网站建设

网站建设开发公司微信公众号开发html网页制作的软件下载

中小企业如何低成本搭建数字人服务?Linly-Talker实战案例 在电商直播间里,一个虚拟主播正用标准普通话介绍新款智能手表,口型与语音完美同步;在企业官网角落,一位“客服专员”微笑着回应访客提问,语气亲切、…

张小明 2026/1/9 11:51:37 网站建设