小门户网站模板,南京凯盛建设集团有限公司网站,网站建设 移动端,seo标题优化关键词怎么选文章系统介绍了AI Agent的概念、设计模式、工作原理及主流框架。AI Agent是大模型与规划、记忆、工具使用的结合体#xff0c;具备自主思考和行动能力。文章详述了反思、工具使用、规划、多智能体协作四大设计模式#xff0c;以及AutoGPT、HuggingGPT、ChatDev等主流框架具备自主思考和行动能力。文章详述了反思、工具使用、规划、多智能体协作四大设计模式以及AutoGPT、HuggingGPT、ChatDev等主流框架并展示了其在教育、编程、客服等领域的应用案例为开发者提供了构建AI Agent的全面指导。申明以下内容源自「线性资本」近期的一次 Agent 分享内容由「特工宇宙」整理「沃垠AI」经授权发布。线性资本成立于 2014 年聚焦“前沿科技产业”方向的投资目前线性资本共管理十支基金总管理规模约 20 亿美元。2024 年年初线性资本发布为早期阶段、面向全球市场 AI 应用专门设立的投资项目 Linear Bolt。它秉持线性投资的理念和哲学专注在技术驱动带来变革的项目希望帮助创始人找到实现目标的最短路径不管是行动速度还是投资方式Bolt 的承诺是更轻更快更灵活。本篇分享来自 Bolt 团队研究资料。AI Agent 概念与设计1. Agent 是什么1.1 AI Agent 通用定义1.1.1 单智能体学术界和工业界对术语“智能体”提出了各种定义。大致来说一个智能体应具备类似人类的思考和规划能力拥有记忆甚至情感并具备一定的技能以便与环境、智能体和人类进行交互。可以将智能体想象成环境中的数字人其中智能体 大语言模型LLM 观察 思考 行动 记忆。这个公式概括了智能体的功能本质。为了理解每个组成部分让我们将其与人类进行类比大语言模型LLMLLM 作为智能体的“大脑”部分使其能够处理信息从交互中学习做出决策并执行行动。观察这是智能体的感知机制使其能够感知其环境。智能体可能会接收来自另一个智能体的文本消息、来自监视摄像头的视觉数据或来自客户服务录音的音频等一系列信号。这些观察构成了所有后续行动的基础。思考思考过程涉及分析观察结果和记忆内容并考虑可能的行动。这是智能体内部的决策过程其可能由 LLM 进行驱动。行动这些是智能体对其思考和观察的显式响应。行动可以是利用 LLM 生成代码或是手动预定义的操作如阅读本地文件。此外智能体还可以执行使用工具的操作包括在互联网上搜索天气使用计算器进行数学计算等。记忆智能体的记忆存储过去的经验。这对学习至关重要因为它允许智能体参考先前的结果并据此调整未来的行动。资料来自MetaGPT1.1.2 多智能体多智能体系统可以视为一个智能体社会其中多智能体 智能体 环境 标准流程SOP 通信 经济这些组件各自发挥着重要的作用智能体在上面单独定义的基础上在多智能体系统中的智能体协同工作每个智能体都具备独特有的 LLM、观察、思考、行动和记忆环境环境是智能体生存和互动的公共场所。智能体从环境中观察到重要信息并发布行动的输出结果以供其他智能体使用标准流程SOP这些是管理智能体行动和交互的既定程序确保系统内部的有序和高效运作。例如在汽车制造的 SOP 中一个智能体焊接汽车零件而另一个安装电缆保持装配线的有序运作通信通信是智能体之间信息交流的过程。它对于系统内的协作、谈判和竞争至关重要经济这指的是多智能体环境中的价值交换系统决定资源分配和任务优先级。资料来自MetaGPT1.2 AI Agent 和 LLM、 RPA 的区别LLM 和 Al Agent 的区别在于Al Agent 可以独立思考并做出行动RPA 和 Al Agent 的区别在于Al Agent 能够处理未知环境信息1.3 AI Agent 待解****决的问题大模型智能水平不够大模型的上下文限制限制了 LLM 可以选择的工具范围由于 Transformer 架构的限制存在推理速度较慢无法处理并行任务等问题大模型幻觉问题用户与 AI Agent 交互基于 Prompt高成本消耗大量 Token1.4Al AgentLandscape由 E2B 整理的 Al Agents Landscape项目地址https://github.com/e2b-dev/awesome-ai-agents?tabreadme-ov-file1.5 Frameworks and tools for Al products由 E2B 整理的 Frameworks and tools for Al products项目地址https://github.com/e2b-dev/awesome-ai-sdks?tabreadme-ov-file2. AI agent 设计模式2024 年 4 月 2 日吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察提出了目前有4种主要的 Agent 设计模式分别是反思Reflection、工具使用Tool Use、规划Planning、多智能体Multiagent Collaboration。2.1 反思Reflection让 Agent 审视和修正自己生成的输出。我们可以将之前生成的代码再次输入给语言模型同一个生成代码的模型可能会发现漏洞并提出改进意见接收反馈后我们可以让模型根据修改建议重新生成它会生成更好的代码版本。这个想法的一种自然延伸是不是单一的代码代理而是有两个代理,一个是编码代理另一个是评审代理。它们可以基于同一个大型语言模型但你以不同的方式对它们进行提示对一个说你是专业编码者编写代码对另一个说你是专业代码评审员评审这段代码。这会帮助很多工作流程带来显著的大型语言模型性能提升。2.2 工具使用Tool useLLM 生成代码、调用 API 等进行实际操作。我们让大语言模型可以根据用户意图自主完成调用 API搜索网页、生成和运行代码等操作并且使用各种工具来分析数据、收集信息、执行操作等以此提高生产效率。2.3 规划Planning让 Agent 分解复杂任务并按计划执行。我们以一个 HuggingGPT 案例理解 AI Agent 规划流程。输入男孩的照片输出一个和男孩相同姿势的女孩正在看书的照片然后请用语音描述新图片Prompt请生成一张女孩正在看书的图片她的姿势与图片 example.jpg 中的男孩相同然后请用语音描述新图片AI Agent 自主规划第一步是确定男孩的姿势然后可能在 Hugging Face 上找到一个合适的模型来提取这个姿势接下来要找到一个姿势图像模型来合成一个女孩的图像然后使用图像到文本的模型最后使用语音合成生成描述。2.4 多智能体协作Multiagent collaboration多个 Agent 扮演不同角色合作完成任务。以开源项目 ChatDev 为案例我们让大语言模型扮演不同的角色比如公司 CEO、设计师、产品经理或测试员这些代理会相互协作共同开发一个复杂程序。虽然不是每次都能成功但有时确实令人印象深刻。研究还发现让不同的人工智能代理进行辩论也能提高它们的表现。Agent 工作原理和主流框架3. AI Agent 工作原理3.1 AI Agent 框架拆解一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。OpenAI 的应用研究主管 Lilian Weng 撰写了一篇博客认为 AI Agent 可能会成为新时代的开端。她提出了 Agent LLM 规划 记忆 工具使用的基础架构其中 LLM 扮演了 Agent 的“大脑”在这个系统中提供推理、规划等能力。3.2 AI Agent 决策流程完整的 AI Agent 决策流程分为 8 个步骤。完整的 AI Agent 决策流程分为 8 个步骤感知、记忆、规划路径、使用工具、行动、执行、反馈、学习。4. AI Agent 主流框架4.1 单智能体框架AutoGPT开发者AutoGPT 由游戏公司 Significant Gravitas Ltd. 的创始人 Toran Bruce Richards 构建发布时间2023 年 3 月 30 日Github Stars164kAutoGPT 定位类似个人助理帮助用户完成指定的任务如调研某个课题。AutoGPT 比较强调对外部工具的使用如搜索引擎、页面浏览等。作为早期 AgentAutoGPT 有很多缺点比如无法控制迭代次数、工具有限。但是后续的模仿者非常多基于此演变出了非常多的框架。相关文章https://mp.weixin.qq.com/s/EYxbsC3zxa3eyl4OA-OvuAHuggingGPT开发者浙江大学和微软联合团队发布时间2023 年 4 月HuggingGPT 将模型社区 HuggingFace 和 ChatGPT 连接在一起形成了一个 AI Agent. HuggingGPT 融合了 HuggingFace 中成百上千的模型和 GPT可以解决多种任务包括文本分类、对象检测、语义分割、图像生成、问答、文本语音转换和文本视频转换。具体步骤分为四步1任务规划使用 ChatGPT 来获取用户请求2模型选择根据 HuggingFace 中的函数描述选择模型并用选中的模型执行 AI 任务3任务执行使用第 2 步选择的模型执行的任务总结成回答返回给 ChatGPT4回答生成使用 ChatGPT 融合所有模型的推理生成回答返回给用户。HuggingGPT 的亮点HuggingGPT 与 AutoGPT 的不同之处在于它可以调用 HuggingFace 上不同的模型来完成更复杂的任务从而提高了每个任务的精确度和准确率然而总体成本并没有降低太多。AppAgent开发团队腾讯与德州大学达拉斯分校合作开发发布时间2023 年 12 月 22 日AppAgent 可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物甚至进行复杂的图像编辑……AppAgent 在 50 个任务上进行了广泛测试涵盖了 10 种不同的应用程序。该项目由腾讯和德州大学达拉斯分校的研究团开发。项目及演示: https://appagent-official.github.io项目论文: https://arxiv.org/abs/2312.13771GitHub: https://github.com/mnotgod96/AppAgent4.2 多智能体框架斯坦福虚拟小镇开发团队斯坦福大学的人机交互研究小组发布时间2023 年 8 月 10 日这个小镇中可以添加最多 25 个由 ChatGPT 扮演的角色。他们有着不同的身份、性格和年龄共同生活在这个小镇里。他们像人类一样进行着自己的活动也像人类一样彼此交流。在这个数字化的「西部世界」沙盒虚拟城镇中有学校、医院、家庭。25 个 AI 智能体不仅能在这里上班、闲聊、social、交友甚至还能谈恋爱而且每个 Agent 都有自己的个性和背景故事。以下就是 John Lin 度过的一天早晨6点醒来开始刷牙、洗澡、吃早餐在出门工作前他会见一见自己的妻子 Mei 和儿子 Eddy。这些智能体相互之间会发生社会行为。当他们注意到彼此时可能会进行对话。随着时间推移这些智能体会形成新的关系并且会记住自己与其他智能体的互动。一个有趣的故事是在模拟开始时一个智能体的初始化设定是自己需要组织一个情人节派对。随后发生的一系列事情都可能存在失败点智能体可能不会继续坚持这个意图或者会忘记告诉他人甚至可能忘了出现。幸运的是在模拟中情人节派对真实地发生了许多智能体聚在了一起发生了有趣的互动。Githubhttps://github.com/joonspk-research/generative_agents项目论文https://arxiv.org/abs/2304.03442ChatDev开发团队面壁智能联合清华大学 NLP 实验室、北京邮电大学、布朗大学等研究人员发布时间2023 年 7 月ChatDev 是一家软件自动开发框架通过各种不同角色的智能体运营,包括执行官、技术官、程序员、测试员等。这些智能体形成了一个多智能体组织结构ChatDev 内的智能体通过参加专业的功能研讨会来协作包括设计、编码、测试和文档编写等任务。ChatDev 的主要目标是提供一个基于大型语言模型(LLM)的易于使用、高度可定制并且可扩展的框架,它是研究群体智能的理想场景。项目地址: https://github.com/OpenBMB/ChatDev项目论文: https://arxiv.org/abs/2307.07924v3相关文章https://mp.weixin.qq.com/s/Rax0UWHYD22Re_Ak-saHrgMetaGPT开发团队深度赋智创始人 CEO吴承霖发布时间2023 年 7 月 4 日MetaGPT 是一个解决复杂多智能体协作问题的框架。项目通过模拟软件开发公司的工作流程将标准化操作程序(SOP)编码到 Prompt 中。在框架中为每个智能体分配角色(老板、产品经理、项目经理、设计师、工程师、质量工程师)并规划智能体的协作过程。同时保持输出的模块化以及赋予智能体与人类工作者相当的领域专业知识以验证输出并减少错误。MetaGPT 的核心理念是 “Code SOP (Team)”,即将 SOP 具象化并应用于由 LLMs 组成的团队。MetaGPT 的主要用途是帮助开发团队根据简短的需求描述生成产品需求文档(PRD)、设计文档、任务列表以及相关的代码仓库。它可以加快软件开发流程,提供多个角色的协作,并自动生成部分项目文档和设计。图软件公司多角色示意图AI Agent 应用案例5. AI Agent 应用5.1 AI Agent 构建平台Coze/扣子字节跳动推出的 AI Bot 构建工具。Coze 扣子是字节跳动推出的 AI Bot 开发平台用户无需编程经验就能快速搭建各类问答 Bot并可以将创建的聊天机器人一键发布到 Discord海外版、飞书、微信公众号等平台中。5.2 陪伴/娱乐独响AppAI Agent 朋友圈。独响是一个安全私密的轻笔记你可以用来记录生活日常学习感悟所思所想但独响又不仅如此我们创造和移植了许多虚拟角色的灵魂让他们成为你独响中的伙伴他们会在你的记录下方评论你可以和他们讨论聊天甚至是…吵架。5.3 效率工具Opencord.aiAI Agent 运营社交媒体。Opencord AI 是一款全新的社交媒体管理工具,它通过动员一支 24 小时在线的创作智能体团队,为您高效地运营社交媒体账号。这支团队由多个自主的创作智能体组成,它们能够自动分析热门趋势,及时制作吸引人的帖子和视频内容,添加流行话题标签并自动点赞、转发和回复全程免去人工干预。产品特点:持续 24 小时运营确保您的社交媒体内容持续输出随时跟进最新热点自适应优化策略根据内容表现自动调整运营方式持续提升效果高效内容生产只需提供一个简单的指令智能体就能自动生成创意帖文、剪辑优质视频短片等扁平化协作网络,智能体间高效自主协作精简运营成本。5.4 教育Gatekeep生成教育短视频。Gatekeep 是一个可以生成教育 AI 短视频的网站使用起来非常方便用户只需要输入一个主题比如“分数的加法”或者“太阳、地球和月球的运动关系”就可以生成相应的教育视频。技术链路先让 AI 把你的问题拆解成各个子模块每个模块生成对应的文字解释和 Manim 的 Python 代码最后按一定的时间戳生成配音合成视频。5.5 代码编程OpenDevinAI 程序员智能体。OpenDevin 是一个开源的自主人工智能软件工程师能够执行复杂的工程任务并在软件开发项目中与用户积极协作例如如 “查找上个月 OpenDevin 仓库中的拉取请求数量”还能处理软件工程任务例如 “请为这个文件添加测试并验证所有测试都通过如果没有修复该文件”。同时OpenDevin 是一个代理开发者平台和社区用于测试和评估新代理的环境。5.6 Caller AgentParloa客户服务对话式人工智能平台。Parloa 是一家总部位于德国的科技初创公司成立于 2018 年是一家专注于开发对话式人工智能平台。该公司最新在B轮融资中获得了 6600 万美元投资投资方包括知名风投 Altimeter Capital 等核心产品是一个基于人工智能的语音对话平台,可用于企业客户服务和自动化沟通。该平台结合了专有和开源的大型语言模型对语音进行识别并生成自然语言对话响应实现语音智能自动化。公司还开发了定制的电话基础设施来最小化语音延迟客户包括欧洲的一些大型企业如瑞士人寿保险公司和零售商迪卡侽等它们使用 Parloa 平台自动化客户沟通流程。图Parloa 官网5.7 个人助理MultiOn AI帮助人类免除执行琐事的 AI Agent.MultiON 旨在开发帮助人们处理那些“世俗琐事”的 AI Agent比如帮助用户在快速完成旅行规划或者为用户快速在喜欢的餐厅预订一顿年夜饭并确认最适合的时间和日期把诸如此类“费时不费脑”的事情在 AI 的帮助下几分钟内完成。5.8 游戏玩伴Nunu.ai一个能够和玩家玩游戏的 AI Agent.Towards AGI for Games 是一个先驾者项目,旨在开发出能够测试和玩任何游戏的人工智能智能体。这些智能体是基于视觉的,能够像人类玩家一样看到游戏画面并与之互动。在游戏过程中,智能体会对自己的行为进行推理,并提供可解释的思维见解。1749326)]MultiOn AI帮助人类免除执行琐事的 AI Agent.MultiON 旨在开发帮助人们处理那些“世俗琐事”的 AI Agent比如帮助用户在快速完成旅行规划或者为用户快速在喜欢的餐厅预订一顿年夜饭并确认最适合的时间和日期把诸如此类“费时不费脑”的事情在 AI 的帮助下几分钟内完成。[外链图片转存中…(img-zXGZWgoF-1765451749326)]5.8 游戏玩伴Nunu.ai一个能够和玩家玩游戏的 AI Agent.Towards AGI for Games 是一个先驾者项目,旨在开发出能够测试和玩任何游戏的人工智能智能体。这些智能体是基于视觉的,能够像人类玩家一样看到游戏画面并与之互动。在游戏过程中,智能体会对自己的行为进行推理,并提供可解释的思维见解。在大模型时代我们如何有效的去学习大模型现如今大模型岗位需求越来越大但是相关岗位人才难求薪资持续走高AI运营薪资平均值约18457元AI工程师薪资平均值约37336元大模型算法薪资平均值约39607元。掌握大模型技术你还能拥有更多可能性• 成为一名全栈大模型工程师包括PromptLangChainLoRA等技术开发、运营、产品等方向全栈工程• 能够拥有模型二次训练和微调能力带领大家完成智能对话、文生图等热门应用• 薪资上浮10%-20%覆盖更多高薪岗位这是一个高需求、高待遇的热门方向和领域• 更优质的项目可以为未来创新创业提供基石。《AI大模型从0到精通全套学习包》如果你想要提升自己的能力却又没有方向想学大模型技术去帮助就业和转行又不知道怎么开始那么这一套**《AI大模型零基础入门到实战全套学习大礼包》以及《大模型应用开发视频教程》**一定可以帮助到你限免0元1全套AI大模型应用开发视频教程包含深度学习、提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点2大模型入门到实战全套学习大礼包01大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通02大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。03AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。04大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。05大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。*这些资料真的有用吗*这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。06以上全套大模型资料如何领取用微信加上就会给你发无偿分享遇到扫码问题可以私信或评论区找我