深圳做网站应该怎么做国内出版社网站建设-贵港市网站建设公司-Seo优化

深圳做网站应该怎么做,国内出版社网站建设,取公司名字,网站开发在线数据库基于 NVIDIA NIM 开发并部署 AI Agent#xff08;智能体#xff09;的完整案例#xff0c;以企业级客服智能体为例#xff0c;涵盖 Agent 核心逻辑开发、基于 NIM 的推理服务部署、Agent 服务封装与上线全流程。案例背景开发一个“金融产品咨询智能体”#xff0c;具备以…基于 NVIDIA NIM 开发并部署 AI Agent智能体的完整案例以企业级客服智能体为例涵盖 Agent 核心逻辑开发、基于 NIM 的推理服务部署、Agent 服务封装与上线全流程。案例背景开发一个“金融产品咨询智能体”具备以下能力理解用户自然语言问题如“信用卡分期利率是多少”检索金融产品知识库RAG 能力调用 NIM 提供的 LLM 生成合规、准确的回答部署为可对外调用的 HTTP 服务。前置条件硬件配备 NVIDIA GPURTX 4090/A100/H100显存 ≥ 16GB软件Docker、NVIDIA Container Toolkit、Python 3.9、FastAPI、LangChain账号NVIDIA NGC 账号获取 NIM 容器https://ngc.nvidia.com/。步骤 1部署 NVIDIA NIM 推理服务Llama 3.1 BGE-M3首先部署 NIM 提供的 LLM 服务对话生成和嵌入模型服务知识库检索。1.1 启动 NIM Llama 3.1 8B 服务对话生成# 1. 登录 NGC首次需执行输入 NGC API Keydocker login nvcr.io# 2. 拉取 NIM Llama 3.1 8B 镜像docker pull nvcr.io/nim/meta/llama3.1-8b-instruct:latest# 3. 启动 NIM LLM 服务暴露 8000 端口占用 1 块 GPUdocker run -d --name nim-llm --gpus all -p8000:8000\-eNVIDIA_API_KEY你的 NGC API Key\nvcr.io/nim/meta/llama3.1-8b-instruct:latest1.2 启动 NIM BGE-M3 服务文本嵌入# 1. 拉取 NIM BGE-M3 镜像docker pull nvcr.io/nim/bge-m3:latest# 2. 启动 NIM 嵌入服务暴露 8001 端口docker run -d --name nim-embed --gpus all -p8001:8000\-eNVIDIA_API_KEY你的 NGC API Key\nvcr.io/nim/bge-m3:latest1.3 验证 NIM 服务# 验证 LLM 服务curlhttp://localhost:8000/v1/models# 验证嵌入服务curlhttp://localhost:8001/v1/models返回模型列表如llama3.1-8b-instruct则说明部署成功。步骤 2开发 AI Agent 核心逻辑基于 LangChain 封装 Agent整合“知识库检索 NIM LLM 推理合规校验”能力。2.1 安装依赖pipinstalllangchain fastapi uvicorn requests faiss-cpu python-multipart2.2 Agent 核心代码finance_agent.pyimportrequestsimportfaissimportnumpyasnpfromlangchain.schemaimportHumanMessage,SystemMessagefromfastapiimportFastAPI,HTTPExceptionfrompydanticimportBaseModel# 配置项 # NIM 服务地址NIM_LLM_URLhttp://localhost:8000/v1/chat/completionsNIM_EMBED_URLhttp://localhost:8001/v1/embeddings# 金融产品知识库示例数据KNOWLEDGE_BASE[信用卡分期利率3期 0.9%/期6期 0.85%/期12期 0.8%/期,储蓄卡跨行取款手续费每月前3笔免费之后每笔2元,房贷基准利率首套房 LPR - 20BP二套房 LPR 60BP,理财产品起购金额稳健型 1万元进取型 5万元]# 合规提示词确保回答符合金融监管要求SYSTEM_PROMPT 你是专业的金融客服智能体需遵守以下规则 1. 仅回答知识库中的金融产品问题超出范围请回复“暂无相关信息” 2. 回答需准确、简洁不夸大收益、不承诺保本 3. 禁止透露客户隐私、禁止提供投资建议。 # 工具函数 classNIMEmbedding:适配 NIM 嵌入服务的封装类defembed_texts(self,texts:list)-list:批量生成文本嵌入向量try:resprequests.post(NIM_EMBED_URL,json{input:texts},timeout10)resp.raise_for_status()return[d[embedding]fordinresp.json()[data]]exceptExceptionase:raiseRuntimeError(f嵌入服务调用失败{str(e)})defembed_query(self,query:str)-list:生成单个查询的嵌入向量returnself.embed_texts([query])[0]classNIMLLM:适配 NIM LLM 服务的封装类defgenerate_response(self,context:str,query:str)-str:结合上下文生成回答try:payload{model:llama3.1-8b-instruct,messages:[{role:system,content:SYSTEM_PROMPT},{role:user,content:f上下文{context}\n问题{query}}],temperature:0.1,# 低随机性保证回答准确max_tokens:200}resprequests.post(NIM_LLM_URL,jsonpayload,timeout20)resp.raise_for_status()returnresp.json()[choices][0][message][content].strip()exceptExceptionase:raiseRuntimeError(fLLM 服务调用失败{str(e)})# Agent 核心类 classFinanceAgent:def__init__(self):# 初始化嵌入模型和向量库self.embeddingNIMEmbedding()self.llmNIMLLM()self._build_knowledge_vector_db()def_build_knowledge_vector_db(self):构建知识库向量库# 生成知识库文本的嵌入向量knowledge_embeddingsself.embedding.embed_texts(KNOWLEDGE_BASE)# 初始化 FAISS 向量库维度与 NIM 嵌入一致dimensionlen(knowledge_embeddings[0])self.indexfaiss.IndexFlatL2(dimension)self.index.add(np.array(knowledge_embeddings).astype(float32))self.knowledge_textsKNOWLEDGE_BASEdefretrieve_context(self,query:str,top_k:int2)-str:检索与问题最相关的知识库内容query_embeddingself.embedding.embed_query(query)# 向量检索L2 距离distances,indicesself.index.search(np.array([query_embedding]).astype(float32),ktop_k)# 过滤低相关性结果距离阈值可根据实际调整context[]fori,idxinenumerate(indices[0]):ifdistances[0][i]1.0:# 距离越小越相关context.append(self.knowledge_texts[idx])return\n.join(context)ifcontextelse暂无相关信息defrun(self,query:str)-str:Agent 主流程检索 → 生成回答# 1. 检索知识库contextself.retrieve_context(query)# 2. 调用 LLM 生成回答returnself.llm.generate_response(context,query)# FastAPI 服务封装 appFastAPI(title金融客服智能体 API)agentFinanceAgent()# 初始化 Agent# 请求体模型classAgentRequest(BaseModel):query:str# 响应体模型classAgentResponse(BaseModel):code:intmsg:stranswer:strapp.post(/api/finance/query,response_modelAgentResponse)defagent_query(request:AgentRequest):智能体对外调用接口try:ifnotrequest.query.strip():raiseHTTPException(status_code400,detail查询内容不能为空)# 执行 Agent 逻辑answeragent.run(request.query)returnAgentResponse(code200,msgsuccess,answeranswer)exceptHTTPExceptionase:returnAgentResponse(codee.status_code,msge.detail)exceptExceptionase:returnAgentResponse(code500,msgf服务异常{str(e)})# 启动服务本地测试if__name____main__:importuvicorn uvicorn.run(app,host0.0.0.0,port8080)步骤 3部署 Agent 服务并测试3.1 启动 Agent 服务# 运行 FastAPI 服务python finance_agent.py服务将启动在http://0.0.0.0:8080。3.2 测试 Agent 接口# 测试有效查询curl-X POSThttp://localhost:8080/api/finance/query\-HContent-Type: application/json\-d{query: 信用卡分期12期的利率是多少}# 测试无效查询curl-X POSThttp://localhost:8080/api/finance/query\-HContent-Type: application/json\-d{query: 股票怎么买}3.3 预期输出有效查询返回{code:200,msg:success,answer:信用卡分期利率12期 0.8%/期}无效查询返回{code:200,msg:success,answer:暂无相关信息}步骤 4企业级部署优化可选若需生产环境部署可补充以下优化4.1 容器化 Agent 服务创建DockerfileFROM python:3.9-slim WORKDIR /app COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt COPY finance_agent.py . EXPOSE 8080 CMD [python, finance_agent.py]构建并启动容器docker build -t finance-agent:v1.docker run -d --name finance-agent -p8080:8080 finance-agent:v14.2 Kubernetes 部署大规模场景创建agent-deployment.yamlapiVersion:apps/v1kind:Deploymentmetadata:name:finance-agentspec:replicas:2selector:matchLabels:app:finance-agenttemplate:metadata:labels:app:finance-agentspec:containers:-name:agentimage:finance-agent:v1ports:-containerPort:8080resources:limits:cpu:1memory:2Gi---apiVersion:v1kind:Servicemetadata:name:finance-agent-servicespec:type:LoadBalancerselector:app:finance-agentports:-port:80targetPort:8080部署到 K8s 集群kubectl apply -f agent-deployment.yaml总结核心流程先部署 NIM 提供的 LLM/嵌入服务容器化一键启动再基于 LangChain 封装 Agent 逻辑检索推理合规最后通过 FastAPI 封装为 HTTP 服务关键优势NIM 预优化容器大幅降低 LLM 部署门槛标准化 OpenAI 兼容接口无需修改核心代码企业级适配支持容器化/K8s 部署可根据业务需求扩展为多 Agent 协作、多模型调用的复杂场景。该案例可直接落地也可根据实际业务扩展知识库、增加工具调用如查询用户账单、接入语音识别NIM RIVA 服务等能力。你想了解在不同环境下部署 NVIDIA NIM 的具体方法我会按开发测试、单机生产、企业级集群、云托管四大典型环境分类给出适配各场景的部署步骤、核心配置和代码/命令示例覆盖从新手体验到大规模生产的全场景需求。核心前提所有环境通用硬件需配备 NVIDIA GPURTX 4090/A100/H100 等显存 ≥ 8GB大模型需 ≥ 16GB基础软件安装 NVIDIA 驱动≥535 版本、Docker或 Podman、NVIDIA Container Toolkit账号NVIDIA NGC 账号获取 API Key地址https://ngc.nvidia.com/。一、开发/测试环境RTX AI PC/轻量工作站适合开发者体验、功能验证操作极简无需复杂配置。场景特点单 GPU、低并发、快速启动支持可视化工具/一键脚本部署。部署步骤以 Llama 3.1 8B 为例1. 环境准备仅首次执行# 安装 NVIDIA Container Toolkit让 Docker 识别 GPUcurl-s -L https://nvidia.github.io/nvidia-docker/gpgkey|sudoapt-keyadd-distribution$(./etc/os-release;echo$ID$VERSION_ID)curl-s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list|sudotee/etc/apt/sources.list.d/nvidia-docker.listsudoapt-getupdatesudoapt-getinstall-y nvidia-docker2sudosystemctl restart docker2. 一键启动 NIM 服务# 登录 NGC输入你的 NGC API Keydocker login nvcr.io# 拉取并启动 Llama 3.1 8B NIM 容器暴露 8000 端口docker run -it --gpus all -p8000:8000\-eNVIDIA_API_KEY你的 NGC API Key\nvcr.io/nim/meta/llama3.1-8b-instruct:latest3. 可视化工具辅助部署可选新手友好Flowise打开 Flowise → 拖拽「Chat NVIDIA NIM」节点 → 点击「Set up NIM Locally」→ 选择模型自动下载部署AnythingLLM进入配置 → AI Providers → LLM → 选择 NVIDIA NIM → 运行安装程序自动部署。验证方式访问http://localhost:8000/v1/models返回模型列表即部署成功。二、单机生产环境物理服务器/私有云单机适合中小规模业务日均请求 ≤ 10 万兼顾稳定性与资源利用率。场景特点单 GPU/多 GPU单机、固定并发、需持久化/日志管理。部署步骤以多模型部署为例1. 自定义配置启动 NIM创建docker-compose.yml支持多模型、持久化日志version:3.8services:# LLM 服务Llama 3.1 8Bnim-llm:image:nvcr.io/nim/meta/llama3.1-8b-instruct:latestports:-8000:8000environment:-NVIDIA_API_KEY你的 NGC API Key-LOG_LEVELinfo# 日志级别-MAX_CONCURRENT_REQUESTS50# 最大并发deploy:resources:reservations:devices:-driver:nvidiacount:1# 占用 1 块 GPUcapabilities:[gpu]volumes:-./nim-logs:/var/log/nim# 日志持久化restart:always# 异常自动重启# 嵌入模型服务BGE-M3nim-embed:image:nvcr.io/nim/bge-m3:latestports:-8001:8000environment:-NVIDIA_API_KEY你的 NGC API Keydeploy:resources:reservations:devices:-driver:nvidiacount:1capabilities:[gpu]restart:always2. 启动服务docker-compose up -d3. 监控与维护# 查看日志docker-compose logs -f nim-llm# 重启服务docker-compose restart nim-llm# 升级镜像docker-compose pull nim-llmdocker-compose up -d三、企业级集群环境Kubernetes 集群适合大规模、高并发、弹性扩展的生产场景如金融/制造行业核心业务。场景特点多节点、多 GPU、自动扩缩容、统一运维支持大模型70B多节点分布式部署。部署步骤1. 集群前置配置# 安装 NVIDIA GPU 设备插件让 K8s 识别 GPUkubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.0/nvidia-device-plugin.yml# 安装 HelmK8s 包管理工具curlhttps://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3|bash2. 单模型部署Helm 示例① 创建values.yaml配置文件# values.yamlreplicaCount:2# 副本数弹性扩展image:repository:nvcr.io/nim/meta/llama3.1-8b-instructtag:latestpullSecrets:-name:ngc-secret# NGC 登录密钥需提前创建service:type:ClusterIP# 集群内访问可改为 LoadBalancer 对外暴露port:8000resources:limits:nvidia.com/gpu:1# 每个副本占用 1 块 GPUrequests:cpu:2memory:16Gienv:-name:NVIDIA_API_KEYvalue:你的 NGC API Key-name:MAX_TOKENSvalue:2048② 创建 NGC 密钥并部署# 创建 NGC 登录密钥替换 NGC_API_KEY 为你的密钥kubectl create secret docker-registry ngc-secret\--docker-servernvcr.io\--docker-username$oauthtoken\--docker-passwordNGC_API_KEY# 部署 NIM 服务helminstallnim-llm ./nim-chart -f values.yaml3. 大模型多节点部署70B 模型针对 70B/400B 等超大模型需跨节点调度 GPU# 1. 安装 LeaderWorkerSet管理多节点 Podkubectl apply -f https://github.com/NVIDIA/leader-workerset/releases/download/v0.1.0/leaderworkerset-crds.yaml kubectl apply -f https://github.com/NVIDIA/leader-workerset/releases/download/v0.1.0/leaderworkerset-controller.yaml# 2. 部署多节点 NIM示例Llama 3.1 70B跨 2 节点每节点 2 块 GPUcurl-X POST${nemo_base_url}/v1/deployment/model-deployments\-HContent-Type: application/json\-d{ name: llama3.1-70b-instruct, namespace: meta, config: { model: meta/llama3.1-70b-instruct, nim_deployment: { image_name: nvcr.io/nim/meta/llama3.1-70b-instruct, image_tag: latest, pvc_size: 100Gi, gpu: 4, # 总计 4 块 GPU multi_node: true, num_nodes: 2 # 跨 2 节点 } } }4. 验证与扩缩容# 查看部署状态kubectl get pods -lappnim-llm# 弹性扩缩容helm upgrade nim-llm ./nim-chart --setreplicaCount3四、云托管环境NVIDIA Cloud Functions/NVCF适合无本地算力、需弹性扩缩的场景无需管理底层硬件。场景特点零基础设施管理、按需付费、自动扩缩容支持公有云AWS/Azure/GCP NVIDIA 云函数联动。部署步骤1. 环境准备注册 NVCF 账号https://build.nvidia.com/配置云账号权限如 AWS IAM 权限确保可访问 NGC 仓库。2. 一键部署 Elastic NIM① 登录 NVCF 控制台 → 选择「Elastic NIM」② 选择目标模型如 Llama 3.1 8B、GPU 规格如 A10G/H100③ 配置扩缩容策略最小/最大副本数、触发阈值④ 点击「Deploy」系统自动分配资源并启动服务。3. 命令行部署可选# 安装 NVCF CLIpipinstallnvidia-cloud-functions# 登录 NVCFnvcf login --api-key你的 NVCF API Key# 部署 NIM 服务nvcf model deploy\--model-name meta/llama3.1-8b-instruct\--gpu-type A10G\--min-replicas1\--max-replicas54. 调用与管理# 获取服务端点nvcf model list# 调用 NIM 服务curl-X POSThttps://api.nvcf.nvidia.com/v2/nim/meta/llama3.1-8b-instruct/chat/completions\-HAuthorization: Bearer NVCF_API_KEY\-HContent-Type: application/json\-d{ messages: [{role: user, content: Hello World}], temperature: 0.1 }五、不同环境部署对比与选型建议环境类型核心优势适用场景关键配置开发/测试快速启动、操作简单功能验证、新手体验单 GPU、端口映射单机生产稳定、低运维成本中小规模业务、固定并发持久化日志、资源限制K8s 集群弹性扩展、统一运维大规模高并发、核心业务多 GPU、多节点、Helm云托管NVCF零硬件管理、按需付费无本地算力、弹性需求扩缩容策略、GPU 规格总结核心逻辑所有环境均基于 NIM 容器化封装差异仅在“部署载体”Docker/Compose/K8s/云函数选型原则小体量用单机 Docker大规模用 K8s无本地算力用 NVCF通用验证无论哪种环境均可通过http://IP:端口/v1/models验证服务是否启动扩展建议生产环境建议搭配监控Prometheus Grafana、日志收集ELK大模型需关注显存/网络带宽。

深圳做网站应该怎么做国内出版社网站建设

用凡科做的网站保存不了门禁考勤网站建设

随州抖音seo收费标准南京百度搜索排名优化

重庆百度seo北京做网站优化多少钱

网站怎么做才有效果汕尾网站建设

网站优化是怎么做的企业推广建站

php网站上传教程百度竞价怎么做效果好