防疫测温健康码核验一体机搜索引擎优化ppt

张小明 2026/1/11 17:16:25
防疫测温健康码核验一体机,搜索引擎优化ppt,杭州做产地证去哪个网站,海淀区网站备案去哪概述 大语言模型能够解决复杂的数学问题。然而#xff0c;要使其在规模上高效运行#xff0c;仅有一个强大的模型检查点是不够的。您需要合适的服务堆栈、量化策略和解码方法——这些通常分散在不同的工具中#xff0c;无法很好地协同工作。团队最终需要管理容器、转换脚本和…概述大语言模型能够解决复杂的数学问题。然而要使其在规模上高效运行仅有一个强大的模型检查点是不够的。您需要合适的服务堆栈、量化策略和解码方法——这些通常分散在不同的工具中无法很好地协同工作。团队最终需要管理容器、转换脚本和临时代码才能比较BF16与FP8或者测试推测解码设置。本文展示了如何使用某中心NeMo-Skills库来管理某中心TensorRT-LLM从而构建一个快速、可复现的推理流水线。这个流水线是我们在2024年赢得人工智能数学奥林匹克奖时所使用配置的简化版本它在两个某中心H100 GPU上通过FP8量化和ReDrafter推测解码实现了4倍的批量推理加速。相同的工作流程可以在单个工作站上运行也可以轻松扩展到集群只需极少改动。关键步骤通过本文您将学习如何准备一个OpenMath模型并将其量化为FP8 TensorRT-LLM引擎。训练并集成用于推测解码的ReDrafter草案模型。启动一个优化的推理服务器可选择通过安全的代码沙箱进行工具调用。在BF16、FP8和FP8ReDrafter配置之间对延迟和吞吐量进行基准测试。设置环境第一步是建立一个一致且隔离的环境。我们将使用一个某中心PyTorch NGC容器并安装必要的库用于模型优化的TensorRT-LLM和用于整体流水线管理的NeMo-Skills。FP8推理需要支持FP8推理的某中心GPU包括某中心Ada Lovelace、Hopper、Blackwell或Rubin架构。本文假设有两个GPU可用。容器设置与库安装在nvcr.io/nvidia/pytorch:25.05-py3容器中运行以下命令来安装TensorRT-LLM和NeMo-Skills# 确保没有冲突的TensorRT安装然后安装TensorRT-LLM[-f/etc/pip/constraint.txt]:/etc/pip/constraint.txt pip uninstall-ytensorrt pip3installtensorrt_llm1.1.0rc0# 安装NeMo-Skillspipinstallgithttps://github.com/NVIDIA/NeMo-Skills.git准备模型权重下一步是准备我们的大语言模型。我们将下载nvidia/OpenMath-Nemotron-14B-Kaggle模型并使用FP8量化将其转换为优化的TensorRT-LLM引擎。关于FP8量化的说明FP88位浮点量化效率很高但需要支持E4M3 FP8的GPU如某中心Hopper GPU。对于其他GPU建议使用int8_wo仅权重的8位整数量化它不需要校准。下载模型权重和数据集生成一个Hugging Face令牌并将其导出为环境变量。然后使用Hugging Face CLI下载必要的模型和数据集。# 导出您的Hugging Face令牌exportHF_TOKENhf_YOUR_HUGGING_FACE_TOKEN# 安装Hugging Face CLIpipinstall-Uhuggingface_hub[cli]# 下载14B参数的主模型huggingface-cli download nvidia/OpenMath-Nemotron-14B-kaggle --local-dir OpenMath-Nemotron-14B-kaggle# 下载用于校准的OpenMathReasoning数据集huggingface-cli download nvidia/OpenMathReasoning --repo-type dataset --local-dir OpenMathReasoning为FP8量化准备校准数据集对于FP8量化一个能够代表推理数据的小型校准数据集至关重要。我们将使用OpenMathReasoning数据集的子集来创建它。提供了一个示例来生成HuggingFace格式的数学校准数据集。转换并量化为TensorRT-LLM引擎现在将Hugging Face模型转换为TensorRT-LLM引擎应用FP8量化并使用准备好的校准数据集。此步骤生成FP8量化后的LLM推理引擎。ns convert\--input_modelOpenMath-Nemotron-14B-kaggle\--output_modelOpenMath-Nemotron-14B-kaggle-fp8-trtllm\--convert_fromhf\--convert_totrtllm\--num_gpus2\--dtypefp8\--hf_model_namenvidia/OpenMath-Nemotron-14B-kaggle\--model_typeqwen\--max_input_len30000\--max_seq_len32000\--no-trt_reuse_tmp_engine\--calib_dataset./calibration_dataset此命令执行后您的FP8 LLM引擎已准备就绪可以进行部署。使用ReDrafter加速推理为了进一步提高推理效率我们集成了ReDrafter。这种推测解码技术使用一个更小的“草案”模型来预测令牌使主LLM能够更快地生成响应。ReDrafter是由某机构开发的基于RNN的推理方法。其实现与TensorRT-LLM库支持的大多数模型兼容。安装和训练ReDrafter首先安装ReDrafter库。草案模型的Tokenizer和训练数据应与基础模型使用的保持一致。如果无法获取原始训练数据也可以使用基础模型的输出来训练草案模型。# 安装ReDrafter库pipinstall--no-binaryprotobuf --ignore-requires-python\githttps://github.com/apple/ml-recurrent-drafter.git#eggrecurrent-drafting[dev,train]# 训练ReDrafter模型ns run_cmd--log_dir./logs/\torchrun--nproc_per_node2-mnemo_skills.training.train_redrafter\--llm_name_or_pathOpenMath-Nemotron-14B-kaggle\--datasetOpenMathReasoning\--dataset_splittir\--bf16True\--output_dirredrafter_output\--num_train_epochs1\--per_device_train_batch_size1\--gradient_accumulation_steps4\--save_strategyno\--learning_rate0.001\--weight_decay0.\--warmup_ratio0.1\--lr_scheduler_typecosine\--logging_steps20\--tf32True\--model_max_length2048\--dataset_nrows50000\--drafter_predict_n_tokens3\--drafter_num_layers2\--rnnTrue\--phasetrain\--report_towandb# 如果不使用wandb则删除此行在训练过程中观察redrafter2_top1分数。如果该分数高于0.6则表明接近2倍的运行时性能60%的步骤接受接下来三个起草的令牌。为ReDrafter模型构建TensorRT-LLM引擎接下来我们将把训练好的ReDrafter模型转换为TensorRT-LLM检查点然后将其与我们的主LLM结合创建最终的、加速的TensorRT-LLM引擎。首先克隆TensorRT-LLM仓库以访问其转换脚本gitclone https://github.com/NVIDIA/TensorRT-LLM/然后将训练好的ReDrafter PyTorch检查点转换为TensorRT-LLM检查点。# FP8量化步骤中生成的基础模型中间检查点exportBASE_TRTLLM_CKPT$(pwd)/OpenMath-Nemotron-14B-kaggle-fp8-trtllm-tmp-ckpt# 训练好的草案检查点exportREDRAFTER_PYTORCH_CKPT$(pwd)/redrafter_output/redrafter__redrafter_OpenMath-Nemotron-14B-kaggle_n_3_lr_0.001_layers_2exportREDRAFTER_TRTLLM_CKPT$(pwd)/OpenMath-Nemotron-14B-kaggle-fp8-draft-ckptcd./TensorRT-LLM/examples/redrafter python convert_checkpoint.py\--base_model_checkpoint_dir$BASE_TRTLLM_CKPT\--drafter_model_dir$REDRAFTER_PYTORCH_CKPT\--output_dir$REDRAFTER_TRTLLM_CKPT\--dtypebfloat16\--tp_size2\--redrafter_num_beams1\--redrafter_draft_len_per_beam3cd../../../最后构建集成了草案头用于推测解码的TensorRT-LLM引擎。trtllm-build\--checkpoint_dir$REDRAFTER_TRTLLM_CKPT\--output_dirOpenMath-Nemotron-14B-kaggle-fp8-redrafter-trtllm\--gemm_pluginfp8\--use_paged_context_fmhaenable\--max_batch_size32\--max_seq_len32000\--max_input_len32000\--max_num_tokens32000\--speculative_decoding_modeexplicit_draft_tokens\--max_beam_width1\--kv_cache_typepaged至此您的TensorRT-LLM引擎已通过ReDrafter技术增强可以开始服务了基准测试与结果我们准备了一个配套的笔记本您可以自己尝试完整的流程。该笔记本使用了与上述“容器设置”部分相同的容器设置和安装步骤并使用两个H100 GPU进行推理。在该笔记本中您可以在不同的TensorRT-LLM引擎BF16、FP8、FP8ReDrafter上运行推理。比较性能基准如首个令牌时间和每设备吞吐量。探索高级控制例如在固定时间后提前停止或在完成前N次生成后终止。使用工具调用运行推理。以下是一组基准测试结果的示例指标BF16FP8FP8ReDrafter总生成时间秒144.264.730.5平均样本吞吐量令牌/秒34.675.2138.5表 1. 在两个H100 GPU上不同配置的TensorRT-LLM性能对比完整的基准测试和代码可在笔记本中找到。更多结果请查看AIMO-2获奖方案论文。可选启用工具调用和代码执行沙箱OpenMath LLM是一个强大的工具指令推理模型。这意味着它不仅生成文本还能在安全的沙箱中编写和执行Python代码来解决问题。在配套笔记本中我们提供了如何启动LLM服务器及其伴随的代码执行沙箱的示例。其交互流程如下LLM生成包裹在tool_call和/tool_call令牌中的Python代码。推理引擎提取此代码并将其发送到沙箱。沙箱执行代码并返回结果。输出被反馈给LLM以继续生成或完成其答案。以下是此类交互的一个示例tool_call # 初始化一个列表来存储有效的基数 valid_bases [] # 检查从10开始的基数 for b in range(10, 10000): # 任意大的上限 num1 9 * b 7 num2 b 7 if num1 % num2 0: valid_bases.append(b) print(fFound base: {b}) # 对有效的基数求和 sum_bases sum(valid_bases) print(fSum: {sum_bases}) # 如果和超过1000则取模1000 if sum_bases 1000: result sum_bases % 1000 else: result sum_bases print(fFinal Result: {result}) /tool_call输出Found base: 21 Found base: 49 Sum: 70 Final Result: 70要在配套笔记本中关闭工具调用请使用get_model而不是get_code_execution_model如NeMo-Skills文档所示。您可以亲自尝试。运行配套笔记本来在您的硬件上对这些性能改进进行基准测试并体验工具调用功能。更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站建设教程学校主机安装wordpress

Prometheus监控GPU使用率:保障DDColor服务稳定运行 在AI图像修复服务日益普及的今天,一个看似简单的“老照片上色”功能背后,往往隐藏着复杂的计算负载和严苛的资源调度需求。以基于扩散模型的DDColor黑白照片修复为例,其在ComfyU…

张小明 2026/1/10 15:30:25 网站建设

帮客户做网站的公司个人网站设计策划

命名实体识别NER实战:TensorFlow BiLSTMCRF实现 在金融风控系统中,每天要处理成千上万份合同文本,如何自动提取出“甲方:张三科技有限公司”、“乙方:李四集团”这类关键信息?在医疗电子病历场景下&#xf…

张小明 2026/1/10 15:30:26 网站建设

做彩票网站技术wordpress微信群大全

Unity Mod Manager终极指南:新手也能轻松掌握的模组管理神器 【免费下载链接】unity-mod-manager UnityModManager 项目地址: https://gitcode.com/gh_mirrors/un/unity-mod-manager 想要为Unity游戏添加各种创意模组,却担心操作复杂?…

张小明 2026/1/10 15:30:27 网站建设

生成flash的网站源码深圳西乡固戍招聘信息

PETools 是一款功能强大的 PE 文件分析工具,自 2002 年发布以来,已经成为逆向工程领域不可或缺的利器。本文将从新手角度出发,详细介绍 PETools 的核心功能和实用操作技巧。 【免费下载链接】petools PE Tools - Portable executable (PE) ma…

张小明 2026/1/10 15:30:29 网站建设

郑州哪家做网站最好厦门做返利网站的公司

AI安全技术在企业级大模型应用中的关键作用 【免费下载链接】guardrails Adding guardrails to large language models. 项目地址: https://gitcode.com/gh_mirrors/gu/guardrails 随着大语言模型在企业中的广泛应用,AI安全技术已成为确保AI系统可靠运行的核…

张小明 2026/1/10 15:30:30 网站建设

北京建设教育协会官方网站北京做网站哪家专业

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 基于python的哈利波特书影音互动科普网站_v62ht386–论文 项目技术简介 Python版本&#xf…

张小明 2026/1/9 22:34:01 网站建设