淮安涟水网站建设,公司做完网站怎么搜不到,呼和浩特国风网络,广州金山大厦 网站建设一、环境准备
1#xff09;购买AutoDL云主机#xff08;这里之所以选择它#xff0c;是因为性价比很高#xff0c;很适合新手做实验#xff09;#xff0c;选择3090显卡的即可#xff08;如果本地有GPU机器#xff0c;请用自己的#xff09;#xff0c;我购买AutoDL…一、环境准备1购买AutoDL云主机这里之所以选择它是因为性价比很高很适合新手做实验选择3090显卡的即可如果本地有GPU机器请用自己的我购买AutoDL时选择了PyTorch2安装AnacondaAutoDL上已默认安装miniconda3Anacoda官网https://www.anaconda.com/根据你自己的系统下载对应版本安装完成后打开终端Linux/macOS或Anaconda PromptWindows输入以下命令创建一个新环境AutoDL上需要做以下操作conda create -n llama_factory python3.10 conda activate llama_factory3安装cudaAutoDL已安装参考 https://help.aliyun.com/zh/egs/user-guide/install-a-gpu-driver-on-a-gpu-accelerated-compute-optimized-linux-instance4下载数据集数据集对于微调来说是很重要的一环数据集质量的好坏直接决定了你微调的效果。本次实验我用的是一个关于脑筋急转弯的数据集地址https://modelscope.cn/datasets/helloworld0/Brain_teasers二、安装Unsloth1利用conda创建虚拟环境如果你没有开启jupyter则需要做这一步conda create -n unsloth_env python3.10 conda activate unsloth_env 2安装Unslothpip install unsloth三、下载Qwen3大模型此次微调我用的是Qwen3-4B的版本相对来说参数量不大而且效果比较好。先用pip安装modelscope模块pip install modelscope 然后创建目录并下载模型mkdir -p /models/ modelscope download --model Qwen/Qwen3-4B --local_dir /models/Qwen3-4B 说明 Qwen3-4B大模型会下载到/models/Qwen3-4B下面四、微调前的测试微调之前可以先加载初始模型做推理测试编写测试脚本befor_train.py内容如下from unsloth import FastLanguageModel model_name /models/Qwen3-4B # 替换为实际模型路径 max_seq_length 2048 # 最大上下文长度 dtype None # 自动选择 float16 或 bfloat16 load_in_4bit True # 启用 4-bit 量化 model, tokenizer FastLanguageModel.from_pretrained( model_namemodel_name, max_seq_lengthmax_seq_length, dtypedtype, load_in_4bitload_in_4bit, ) FastLanguageModel.for_inference(model) inputs tokenizer( [Instruction: 你是脑筋急转弯专家请回答我的问题什么东西力气再大也不愿意抗], return_tensorspt ).to(cuda) outputs model.generate(**inputs, max_new_tokens256) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))说明初次加载模型耗时会很久耐心等待看其输出内容对比数据集中的答案是否有差异。五、开始微调编写微调的脚本train.py内容如下from unsloth import FastLanguageModel from trl import SFTTrainer from transformers import TrainingArguments from datasets import load_dataset import torch # 加载模型 model_name /models/Qwen3-4B max_seq_length 2048 dtype None load_in_4bit True model, tokenizer FastLanguageModel.from_pretrained( model_namemodel_name, max_seq_lengthmax_seq_length, dtypedtype, load_in_4bitload_in_4bit, ) # 配置 LoRA model FastLanguageModel.get_peft_model( model, r32, target_modules[q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj], lora_alpha64, lora_dropout0.2, biasnone, use_gradient_checkpointingTrue, random_state3407, ) # 加载和预处理数据集 dataset load_dataset(json, data_files/models/datasets/data.json, splittrain) train_prompt_style 下面是一个脑筋急转弯问题请提供合适的答案不需要提供思考过程。 ### 指令: 你是一个脑筋急转弯专家请回答以下问题不需要提供思考过程。 ### 问题: {} ### 回复: {} def formatting_prompts_func(examples, eos_token): inputs examples[instruction] outputs examples[output] texts [] for inputs, outputs in zip(inputs, outputs): text train_prompt_style.format(inputs, outputs) eos_token # eos token在training的时候必须要加 texts.append(text) return { text: texts, } dataset dataset.map( formatting_prompts_func, batchedTrue, fn_kwargs{eos_token: tokenizer.eos_token}, # tokenizer为前面加载model是加载的tokenizer ) # 配置训练 trainer SFTTrainer( modelmodel, tokenizertokenizer, train_datasetdataset, dataset_text_fieldtext, max_seq_lengthmax_seq_length, argsTrainingArguments( per_device_train_batch_size8, gradient_accumulation_steps4, warmup_steps10, max_steps80, learning_rate5e-5, fp16not torch.cuda.is_bf16_supported(), bf16torch.cuda.is_bf16_supported(), logging_steps5, optimadamw_8bit, weight_decay0.01, lr_scheduler_typelinear, seed3407, output_diroutputs, ), ) # 开始训练 trainer.train() ## 保存LoRA适配器 model.save_pretrained(qwen3_lora_finetuned) tokenizer.save_pretrained(qwen3_lora_finetuned) ## 保存新模型 model.save_pretrained_merged(/models/Qwen3-4B-Aminglinux, tokenizer, save_methodmerged_16bit)说明数据集文件路径为/models/datasets/data.json。脚本中涉及很多微调参数如果想要详细的参数介绍可以在文章末尾留言这里就不再详细介绍了。微调会比较耗时主要取决你的硬件配置以及脚本中你设定的max_steps参数这个数值越大它训练的时间就越久。微调后的模型路径为:/models/Qwen3-4B-Aminglinux六、微调后推理测试编写测试脚本after_train.py内容如下from unsloth import FastLanguageModel max_seq_length 2048 dtype None load_in_4bit False ##如果显存足够这里设置为False model, tokenizer FastLanguageModel.from_pretrained( model_name/models/Qwen3-4B-Aminglinux, max_seq_lengthmax_seq_length, dtypedtype, load_in_4bitload_in_4bit, ) FastLanguageModel.for_inference(model) inputs tokenizer( [Instruction: 你是脑筋急转弯专家请回答我的问题什么东西力气再大也不愿意抗], return_tensorspt ).to(cuda) outputs model.generate(**inputs, max_new_tokens256) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】