网站有风险提示怎么办军事新闻最新消息11

张小明 2026/1/8 7:40:17
网站有风险提示怎么办,军事新闻最新消息11,广州网站制作托管,做电脑租赁网站day26 回答准确率测试 回答准确率测试 1️⃣ 定义#xff08;通俗版#xff09; 回答准确率测试#xff0c;就是#xff1a; 给模型一批「有标准答案的问题」#xff0c;看它给出的回答有多少是“对的”本质是一个 评测#xff08;Evaluation#xff09;问题。2️⃣ 数学…day26 回答准确率测试回答准确率测试1️⃣ 定义通俗版回答准确率测试就是给模型一批「有标准答案的问题」看它给出的回答有多少是“对的”本质是一个 评测Evaluation问题。2️⃣ 数学定义简单版假设你有N 个问题模型答对了 K 个那么Accuracy K / N例如100 个问题答对 83 个 准确率 83%3️⃣ 在 LLM 领域的特殊性和传统分类不同LLM 的回答是 自然语言❌ 不是 “A / B / C” ✅ 而是 “一段文本”因此 “什么叫答对” 就成了核心难点。二、回答准确率测试的关键概念LLM 视角1️⃣ 三种常见“准确”的定义✅ 1. Exact Match严格匹配模型回答 标准答案✔ 简单❌ 对 LLM 非常不友好✅ 2. 语义等价Semantic Match含义一致即可例如标准答案“巴黎是法国的首都”模型回答“法国的首都是巴黎”✔ 更符合人类判断❌ 需要额外模型判断✅ 3. LLM-as-a-Judge主流方案用 另一个 LLM 来判断“模型回答是否正确”这是目前工业界、论文里最常见的方法。2️⃣ 回答准确率 ≠ 检索准确率如果你用了 RAG检索增强生成要分清指标衡量什么检索准确率找到的文档对不对回答准确率最终回答对不对三、整体 Demo 架构┌────────────┐ │ Questions │ └─────┬──────┘ │ ┌─────────▼─────────┐ │ Chroma 向量数据库 │ ← 知识库 └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ Qwen-Plus │ ← 生成回答 └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ Accuracy Judge │ ← 再用 Qwen-Plus └─────────┬─────────┘ │ Accuracy四、 Demo可运行Step 0准备 requirements.txtopenai1.0.0 chromadb0.4.22 tqdm python-dotenv安装pipinstall-r requirements.txtStep 1配置 Qwen-Plus⚠️ Qwen 使用 阿里云 DashScopeOpenAI 兼容接口importosfromopenaiimportOpenAI clientOpenAI(api_keyos.getenv(DASHSCOPE_API_KEY),base_urlhttps://dashscope.aliyuncs.com/compatible-mode/v1)Step 2构建一个最小知识库Chromaimportchromadb chroma_clientchromadb.Client()collectionchroma_client.create_collection(namedemo_kb)docs[巴黎是法国的首都。,东京是日本的首都。,北京是中国的首都。]collection.add(documentsdocs,ids[fdoc{i}foriinrange(len(docs))])Step 3定义测试问题带标准答案eval_set[{question:法国的首都是哪里,answer:巴黎},{question:日本的首都是哪里,answer:东京},]Step 4RAG Qwen-Plus 生成回答defanswer_question(question):# 1. 检索resultscollection.query(query_texts[question],n_results1)contextresults[documents][0][0]# 2. 生成promptf 已知信息{context}问题{question}请给出简洁准确的回答。 respclient.chat.completions.create(modelqwen-plus,messages[{role:user,content:prompt}])returnresp.choices[0].message.content.strip()Step 5用 LLM 判断“是否正确”核心defjudge_answer(question,gt_answer,model_answer):judge_promptf 你是一个严格的评测员。 问题{question}标准答案{gt_answer}模型回答{model_answer}请判断模型回答是否正确。 只回答 YES 或 NO。 respclient.chat.completions.create(modelqwen-plus,messages[{role:user,content:judge_prompt}])returnresp.choices[0].message.content.strip().upper()YESStep 6计算准确率correct0foritemineval_set:model_ansanswer_question(item[question])is_correctjudge_answer(item[question],item[answer],model_ans)print(item[question],model_ans,is_correct)ifis_correct:correct1accuracycorrect/len(eval_set)print(fAccuracy:{accuracy:.2%})
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

能访问各种网站的浏览器网站开发图片多打开速度慢

Excalidraw 能否保存为 PDF?打印输出最佳实践 在远程协作日益频繁的今天,一张清晰、专业的架构图往往比千言万语更能精准传达设计意图。Excalidraw 作为一款以“手绘风”著称的开源白板工具,早已成为技术团队绘制流程图、系统架构和产品原型的…

张小明 2026/1/7 11:31:15 网站建设

中堂做网站163免费邮箱入口

Dify镜像部署后的性能压测结果分析 在当前大语言模型(LLM)快速渗透企业级应用的背景下,如何高效构建稳定、可扩展且易于维护的AI系统,已成为技术团队的核心命题。传统开发模式中,提示工程、模型调优与服务集成往往高度…

张小明 2026/1/7 23:18:28 网站建设

微型网站 源码网站的分页做不好会影响主页

Linux 命令行:深入探索与实践 1. 客户端/服务器架构与命名管道概述 客户端/服务器架构是一种常见的编程架构,它可以利用诸如命名管道之类的通信方法,以及网络连接等其他进程间通信方式。其中,最广泛使用的客户端/服务器系统类型是 Web 浏览器与 Web 服务器之间的通信。在这…

张小明 2026/1/7 15:45:43 网站建设

网站开发的目的和意义鞍山网站制作开发

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个智能CSS媒体查询生成器,能够根据用户输入的目标设备类型(手机、平板、桌面)和屏幕尺寸范围,自动生成对应的CSS媒体查询代码…

张小明 2026/1/8 3:32:30 网站建设

找公司的网站建设棋牌类网站要多少钱

实验室改造,这家机构省了30万!背后的行业洞察与避坑指南朋友们,不知道你们有没有遇到过这样的烦恼:实验室用着用着,总觉得哪儿哪儿都不顺手了。设备摆得满满当当,走个路都得侧着身;通风系统嗡嗡…

张小明 2026/1/7 21:54:47 网站建设

湖北做网站对营销网站建设评估及分析

5步掌握pyalgotrade事件驱动策略:高效构建市场时机分析系统 【免费下载链接】pyalgotrade Python Algorithmic Trading Library 项目地址: https://gitcode.com/gh_mirrors/py/pyalgotrade 你是否曾想过,如何从海量市场数据中快速识别关键交易机会…

张小明 2026/1/6 2:27:23 网站建设