食品网站建设的照片,装修设计软件哪个好用免费,宝安附近公司做网站建设哪家效益快,郑州专做喜宴的网站在AI技术的浪潮中#xff0c;大模型以其强大的问题回答能力#xff0c;正逐渐渗透到各行各业#xff0c;成为推动行业发展的新引擎。然而#xff0c;大模型并非万能#xff0c;它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制#xff0c;本文将带你深入了解如…在AI技术的浪潮中大模型以其强大的问题回答能力正逐渐渗透到各行各业成为推动行业发展的新引擎。然而大模型并非万能它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制本文将带你深入了解如何利用检索增强生成模型RAG来扩展大模型的能力并通过一个实战案例展示如何构建一个基于RAG的AI知识库。一、大模型的局限与RAG的机遇大模型虽然在处理通用问题上表现出色但在面对实时数据和私有领域知识时却显得力不从心。为了解决这一问题RAG技术应运而生。RAG通过构建知识库动态补充大模型的知识储备使其能够回答更多问题从而增强其应用范围和深度。二、RAG构建流程详解构建一个基于RAG的AI知识库可以分为以下五个步骤1.文档加载与文本提取我们将借助pdfminer库中的三个强大工具来处理PDF文档以便于我们能够更高效地提取和处理所需信息。1pdfminer.six这是一个多功能库专门设计来处理PDF文档。它的核心功能包括从PDF文件中提取文本和布局信息让我们能够以编程的方式自动化处理PDF文档极大地提高了工作效率。2pdfminer.high_level作为PDFMiner的高级接口此工具为我们提供了一套简化的方法来处理PDF文档。它特别适合于执行高级文档处理任务如文本提取和页面信息获取使得我们能够快速访问和操作PDF中的文本内容。3pdfminer.layout这是PDFMiner库的一个组成部分专注于解析和处理PDF文档的布局信息。它能够识别文本在页面上的确切位置、字体样式等细节对于需要根据页面布局进行特定处理的场景来说是一个非常有用的工具。通过这三个工具的协同工作我们能够将PDF文档中的数据转换成可供程序进一步分析和利用的格式为后续的知识库构建和信息检索打下坚实的基础。在控制台输入#调用包管理工具即可下载 pip install pdfminer.six把对应的工具导入代码文件中接下来就可以写主体的代码了from pdfminer.high_level import extract_pages from pdfminer.layout import LTTextContainer def extract_text_from_pdf (filename, page_numbersNone, min_line_length1): 从 PDF 文件中按指定页码提取文字 paragraphs [] buffer full_text # 提取全部文本 for i, page_layout in enumerate(extract_pages(filename)): # 如果指定了页码范围跳过范围外的页 if page_numbers is not None and i not in page_numbers: continue for element in page_layout: if isinstance(element, LTTextContainer): full_text element.get_text() \n # 按空行分隔将文本重新组织成段落 lines full_text.split( \n )使用pdfminer库中的extract_pages函数从指定的PDF文件中提取页面布局信息。遍历每个页面的布局信息仅保留文本容器LTTextContainer类型的元素并将其文本内容拼接成一个完整的文本字符串full_text。for text in lines: if len(text) min_line_length: buffer ( text) if not text.endswith( - ) else text.strip( - ) elif buffer: paragraphs.append(buffer) buffer if buffer: paragraphs.append(buffer) return paragraphs paragraphs extract_text_from_pdf( llama2.pdf , min_line_length10) for para in paragraphs[:3]: print(para \n )在处理PDF文档转换为可编辑文本的过程中我们采取了一系列精细化的步骤来优化文本的质量和结构。以下是我们实施的文本处理流程1文本分段我们首先将连续的文本字符串依据空行作为分隔符划分成独立的段落。这一步骤确保了文本的可读性使其更贴近自然阅读的习惯。2过滤短行通过设定一个min_line_length参数我们对文本进行过滤忽略掉那些长度不足的行。这一策略有助于去除文档中的噪声比如页脚或页眉中的简短文字。3连字符处理对于以连字符结尾的行我们采取了特殊的合并策略。如果一个断行以连字符结束我们会将其与下一行相连以保持文本内容的完整性。4文本重组在完成上述步骤后我们得到了一个经过重组的文本段落列表。这个列表中的每个元素都是一个经过清洗和重组的段落它们构成了我们知识库的基础。在整个流程中我们利用了pdfminer库的extract_pages函数来提取PDF文件的页面布局信息。我们遍历了每个页面中的文本容器并将这些容器中的文本内容串联起来形成了一个完整的文本字符串。随后我们对这些文本进行了细致的组织和切割最终生成了一个整洁、结构化的文本段落列表为后续的信息检索和知识库构建提供了高质量的数据源。2. 接口引擎搭建在构建高效知识检索系统的过程中我们引入了两个强大的工具elasticsearch7和NLTK (Natural Language Toolkit)。下面让我们深入了解它们各自的功能和应用。1elasticsearch7这是Elasticsearch的官方Python客户端库它充当着与Elasticsearch服务器交互的桥梁。在Python应用中我们通过它与Elasticsearch集群进行通信执行包括搜索、索引创建和更新在内的各种操作。Elasticsearch作为一个分布式搜索引擎以其在全文搜索和日志分析等领域的广泛应用而闻名。2NLTK (Natural Language Toolkit)这是自然语言处理NLP领域的一个综合性库它提供了一系列工具和资源专门用于处理和分析人类语言数据。NLTK在文本处理、分词、词性标注、语法分析等NLP任务中发挥着重要作用。此外它还包含了大量的语料库和算法极大地简化了使用Python进行NLP开发的复杂性。装备了这两个工具我们能够更加方便地从知识库中检索内容并精准地提取出所需的信息。为了将这些工具集成到我们的工作流程中我们通过包管理工具进行了安装和加载。通过这样的技术栈配置我们不仅能够构建一个强大的知识检索系统还能够在自然语言处理方面进行深入的分析和应用从而为我们的AI知识库提供坚实的技术支撑。pip install elasticsearch pip install nltk接下来的代码主要涉及与Elasticsearch的交互包括建立索引、将文本数据灌入索引以及执行搜索操作。以下是具体的步骤#文本处理与关键词提取 from elasticsearch7 import Elasticsearch, helpers from nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize from nltk.corpus import stopwords import nltk import re nltk.download( stopwords ) import warnings warnings.simplefilter( ignore ) # 屏蔽 ES 的一些Warnings nltk.download( punkt ) # 英文切词、词根、切句等方法 nltk.download( stopwords ) # 英文停用词库 def to_keywords (input_string): 英文文本只保留关键字 # 使用正则表达式替换所有非字母数字的字符为空格 no_symbols re.sub(r [^a-zA-Z0-9\s] , , input_string) word_tokens word_tokenize(no_symbols) # 加载停用词表 stop_words set(stopwords.words( english )) ps PorterStemmer() # 去停用词取词根 filtered_sentence [ps.stem(w) for w in word_tokens if not w.lower() in stop_words] return .join(filtered_sentence)在文本处理的过程中我们巧妙地利用了NLTK库的强大功能。我们的工作流程包括几个关键步骤首先通过PorterStemmer进行词干提取这一过程剥离了单词的前缀和后缀将它们还原到最基本的形式接着我们采用word_tokenize进行分词处理将连续的文本分解成单独的词汇单元最后通过stopwords去除常见的停用词这些词汇在语言中普遍出现但对于精确搜索和分析往往贡献有限。此外我们还利用了Python标准库中的re模块来处理正则表达式这使得我们能够从文本中精准地提取出关键词为后续的语义分析和信息检索打下坚实基础。# 创建索引 es.indices.create(indexindex_name) # 灌库指令 actions [ { _index : index_name, _source : { keywords : to_keywords(para), text : para } } for para in paragraphs ] #文本灌库 helpers.bulk(es, actions)在上面的代码中我们使用列表推导式构建actions列表其中每个元素是一个字典包含了索引名称、关键词和原始文本。每个段落的关键词是通过前面定义的to_keywords函数处理得到的。最后使用helpers.bulk函数将文本数据批量灌入Elasticsearch索引。接下来我们需要定义一个search函数用于执行基于关键词的搜索操作。使用search函数执行搜索指定查询字符串和返回结果的数量。将搜索结果中的文本内容提取出来并打印输出。接下来我们看一下如何实现定义搜索函数def search (query_string, top_n3): # ES 的查询语言 search_query { match : { keywords : to_keywords(query_string) } } res es.search(indexindex_name, querysearch_query, sizetop_n) return [hit[ _source ][ text ] for hit in res[ hits ][ hits ]] results search( how many parameters does llama 2 have? , 2) for r in results: print(r \n )完成接口引擎开发之后接下来我们就要对接口封装。3. 接口封装与OpenAI GPT-3.5-turbo模型交互这一部分涉及到与OpenAI GPT-3.5-turbo模型的交互以及封装与OpenAI的通信过程from openai import OpenAI import os # 加载环境变量 from dotenv import load_dotenv, find_dotenv _ load_dotenv(find_dotenv()) # 读取本地 .env 文件里面定义了 OPENAI_API_KEY client OpenAI() def get_completion (prompt, model gpt-3.5-turbo ): 封装 openai 接口 messages [{ role : user , content : prompt}] response client.chat.completions.create( modelmodel, messagesmessages, temperature0, # 模型输出的随机性0 表示随机性最小 ) return response.choices[0].message.content以上代码使用python-dotenv库加载环境变量其中包含了OpenAI API的密钥。使用openai库中的OpenAI类创建一个OpenAI API的客户端。定义get_completion函数该函数接收一个提示prompt并调用OpenAI API的聊天补全接口获取模型生成的回复。最后使用get_completion函数调用OpenAI GPT-3.5-turbo模型传入之前构建的中文提示这里要自己构建一个Prompt模板。设置temperature参数可以自己设置建议设为0以最小化模型生成输出的随机性。接下来是大模型的必知必会应用PromptPrompt用好你会发现让你在开发上和工作期间让你提效翻倍在RAG应用过程中Prompt应用也是必不可少的接下来我们看看Prompt模版应用。4. Prompt模板构建构建一个符合中文对话语境的Prompt模板用于生成问题并提供已知信息。def build_prompt (prompt_template, **kwargs): 将 Prompt 模板赋值 prompt prompt_template for k, v in kwargs.items(): if isinstance(v, str): val v elif isinstance(v, list) and all(isinstance(elem, str) for elem in v): val \n .join(v) else: val str(v) prompt prompt.replace(f __{k.upper()}__ , val) return prompt prompt_template 具体来说 定义一个名为 build_prompt 的函数该函数接收一个 Prompt 模板和一组关键字参数。使用关键字参数填充模板中的占位符占位符以 __ 开头后跟大写字母标识符。这些占位符包括 __INFO__ 和 __QUERY__。他们的名称无所谓主要是方便我们之后填充内容即可。5. RAG正式运行在下面的代码中我们定义了一个用户查询的字符串 使用之前定义的搜索函数 search 对用户查询进行基于关键词的搜索返回搜索结果。使用build_prompt 函数将搜索结果和用户查询组装成一个用于 OpenAI 模型的输入 Prompt。user_query how many parameters does llama 2 have? # 1. 检索 search_results search(user_query, 2) # 2. 构建 Prompt prompt build_prompt(prompt_template, infosearch_results, queryuser_query) print( Prompt ) print(prompt) # 3. 调用 LLM response get_completion(prompt) print( 回复 ) print(response)到这里我们就完成了整个流程的开发接下来我们就对每个环节进行一个简短的提炼总结一起来梳理一下整个实现过程。三、实战案例分析本文中我们将通过一个实战案例展示如何应用上述步骤构建一个基于RAG的AI知识库。从文档的加载与切割到接口引擎的搭建再到Prompt模板的构建和RAG的正式运行每一步都精心设计以确保最终的AI知识库能够精准地回应用户的查询。四、总结与展望通过以上五个步骤我们成功构建了一个简单的AI知识库。在实践中我们可以结合自己的业务需求构建不同领域的AI知识库使自己的AI更加强大。这不仅能够实现技术提升还能拓展新的技术领域与实际业务相结合进行不断的迭代和升级。五、结语大模型的时代已经到来而RAG技术的应用为我们打开了一扇通往更深层次AI应用的大门。希望通过本文的分享能够激发你对大模型和RAG技术的兴趣并在你的技术道路上提供帮助和启发。欢迎在评论区交流讨论共同探索AI技术的无限可能。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”