主站商城论坛手机APP 自运营

整机硬件外设影音智能家电

华硕天选锐龙AI版游戏本预约锐龙AI 9 HX 370+满血RTX 4070首发11999元 ROG联手AMD亮相核聚变游戏嘉年华北京站挑战赢ROG掌机X大奖《星球大战：亡命之徒》DLSS 3.5加持华硕显卡全景光追高帧畅玩！

近期热门

硬件 CPU 主板显卡内存硬盘电源网卡声卡

您的位置：硬件 > 显卡 > 新闻详情

如何在 NVIDIA GPU 上使用 Unsloth 微调大语言模型(LLM)

时间： 2025-12-18 16:15 来源：互联网编辑：饕餮

现代工作流展示了生成式AI和代理式AI在PC上的无限可能性。

这些应用场景包括让聊天机器人处理产品支持问题，或作为管理日程的个人助理。但如何让小语言模型(SLM)在执行专用的代理式任务时持续以高准确率进行响应，仍然是一个挑战。

这正是微调发挥作用的地方。

Unsloth 是全球应用最广泛的开源大语言模型(LLM)微调框架之一，为模型定制提供了一个易于上手的途径。它针对NVIDIA GPU进行了高效、低显存占用的训练优化，覆盖GeForce RTX台式机和笔记本电脑、RTX PRO工作站，以及全球最小的AI超级计算机DGX Spark。

另一个强大的微调起点是刚刚发布的NVIDIA Nemotron 3 系列开放模型、数据和代码库。Nemotron 3引入了目前最高效的开放模型系列，适合用于代理式AI的微调。

教会AI新招式

微调就像是为AI模型进行一次有针对性的训练。通过与特定主题或工作流程相关的示例，模型可以学习新的模式并适应当前任务，从而提升准确性。

为模型选择哪种微调方法，取决于开发者希望对原始模型进行多大程度的调整。根据不同目标，开发者可以采用三种主要的微调方法之一：

参数高效微调（如LoRA或QLoRA）：

● 工作原理：仅更新模型的一小部分，以更快、更低成本完成训练。这是一种在不大幅改变模型的情况下提升能力的高效方式。

● 适用场景：几乎适用于所有传统需要完整微调的场景，包括引入领域知识、提升代码准确性、使模型适配法律或科学任务、改进推理能力，或对语气和行为进行对齐。

● 要求：小到中等规模的数据集（100–1,000组示例提示词对）。

完整微调：

● 工作原理：更新模型的所有参数，适用于训练模型遵循特定格式或风格。

● 适用场景：高级应用场景，例如构建AI智能体和聊天机器人，这些系统需要围绕特定主题提供帮助、遵循既定的约束规则，并以特定方式进行响应。

● 要求：大规模数据集（1,000+组示例提示词对）。

强化学习：

● 工作原理：通过反馈或偏好信号来调整模型行为。模型通过与环境交互进行学习，并利用反馈不断改进自身。这是一种复杂的高级技术，将训练与推理交织在一起，并且可以与参数高效微调和完整微调技术结合使用。详情请参考Unsloth的强化学习指南。

● 适用场景：提升模型在特定领域（如法律或医学）中的准确性，或构建能够为用户设计并执行动作的自主智能体。

● 要求：一个包含行为模型、奖励模型和可供模型学习的环境的流程。

另一个需要考虑的因素是各种方法的显存需求。下表提供了在Unsloth上运行每种微调方法的需求概览。

如何在 NVIDIA GPU 上使用 Unsloth 微调大语言模型(LLM)

Unsloth：在NVIDIA GPU上实现快速微调的高效路径

LLM微调是一种对内存和计算要求极高的工作负载，在每个训练步骤中都需要进行以十亿次记的矩阵乘法来更新模型权重。这类重型并行计算需要依托NVIDIA GPU的强大算力，才能高效、快速地完成。

Unsloth在这类负载中表现出色，可将复杂的数学运算转化为高效的定制GPU kernel，从而加速AI训练。

Unsloth可在NVIDIA GPU上将Hugging Face transformers库的性能提升至2.5倍。这些针对GPU的优化与Unsloth的易用性相结合，使微调对更广泛的AI爱好者和开发者更加易于上手。

框架专为NVIDIA硬件构建并优化，覆盖从GeForce RTX笔记本电脑，到RTX PRO工作站以及DGX Spark，在降低显存占用的同时提供巅峰性能。

Unsloth提供了一系列实用的指南，帮助用户快速上手并管理不同的LLM配置、超参数和选项，以及示例notebook和分步骤工作流程。

访问以下链接查看Unsloth指南：

● Fine-Tuning LLMs With NVIDIA RTX 50 Series GPUs and Unsloth

● Fine-Tuning LLMs With NVIDIA DGX Spark and Unsloth

查看链接了解如何在NVIDIA DGX Spark上安装Unsloth。阅读NVIDIA技术博客，深入了解在NVIDIA Blackwell平台上进行微调和强化学习的相关内容。

现已发布：NVIDIA Nemotron 3开放模型系列

全新的Nemotron 3开放模型系列——包含Nano、Super和Ultra三种规模——基于全新的异构潜在混合专家(Mixture-of-Experts, MoE)架构打造，带来了兼具领先准确率与高效率的开放模型系列，非常适合用于构建代理式AI应用。

目前已发布的Nemotron 3 Nano 30B-A3B是该系列中计算效率最高的模型，针对软件调试、内容摘要、AI助手工作流和信息检索等任务进行了优化，具备较低的推理成本。其异构 MoE设计带来以下优势：

● 推理token数量最多减少60%，显著降低推理成本。

● 支持100万token的上下文处理能力，使模型在长时间、多步骤任务中能够保留更多信息。

Nemotron 3 Super是一款面向多智能体应用的高精度推理模型，而Nemotron 3 Ultra则适用于复杂的AI应用。这两款模型预计将在2026年上半年推出。

NVIDIA于12月15日还发布了一套开放的训练数据集合集以及先进的强化学习库。Nemotron 3 Nano的微调现已在Unsloth上提供。

Nemotron 3 Nano现可在Hugging Face 获取，或通过Llama.cpp和LM Studio进行体验。

DGX Spark：紧凑而强大的AI算力引擎

DGX Spark支持本地微调，将强大的AI性能集成在紧凑的桌面级超级计算机形态中，让开发者获得比普通PC更多的内存资源。

DGX Spark基于NVIDIA Grace Blackwell架构打造，最高可提供1 PFLOP的FP4 AI性能，并配备128GB的CPU-GPU统一内存，使开发者能够在本地运行更大规模的模型、更长的上下文窗口以及更高负载的训练工作。

在微调方面，DGX Spark可实现：

● 支持更大规模的模型。参数规模超过30B的模型往往会超出消费级GPU的VRAM容量，但可以轻松运行在DGX Spark的统一内存中。

● 支持更高级的训练技术。完整微调和基于强化学习的工作流对内存和吞吐量要求更高，在DGX Spark上运行速度显著更快。

● 本地控制，无需云端排队。开发者可以在本地运行高计算负载任务，无需等待云端实例或管理多个环境。

DGX Spark的优势不仅限于在LLM上。高分辨率扩散模型通常需要超过普通桌面系统所能提供的内存。借助FP4支持和大容量统一内存，DGX Spark可在短短几秒内生成1000张图像，并为创意或多模态工作流提供更高的持续吞吐量。

下表展示了在DGX Spark上对Llama系列模型进行微调的性能表现。

如何在 NVIDIA GPU 上使用 Unsloth 微调大语言模型(LLM)

随着微调工作流的不断发展，全新的Nemotron 3开放模型系列为RTX系统和DGX Spark提供了可扩展的推理能力与长上下文性能优化。

请访问链接了解DGX Spark 如何支持高强度AI任务。

#别错过— NVIDIA RTX AI PC的最新进展

�� FLUX.2图像生成模型现已发布，并针对NVIDIA RTX GPU进行优化

Black Forest Labs推出的新模型支持FP8量化，可降低显存占用并将性能提升40%。

✨ Nexa.ai通过Hyperlink为RTX PC扩展本地AI，实现代理式搜索

这款全新的本地搜索智能体可将检索增强生成(RAG)索引速度提升3倍，将LLM推理速度提升2倍，使一个高密度1GB文件夹的索引时间从约15分钟缩短至仅4到5分钟。DeepSeek OCR现已通过NexaSDK以GGUF形式在本地运行，可在RTX GPU上即插即用地解析图表、公式以及多语言PDF。

�� Mistral AI发布全新模型家族，并针对NVIDIA GPU进行优化

全新的Mistral 3模型从云端到边缘端均经过优化，可通过Ollama和Llama.cpp进行快速的本地实验。

�� Blender 5.0正式发布，带来HDR色彩与性能提升

本次版本新增ACES 2.0广色域/HDR色彩支持，加入NVIDIA DLSS，可将毛发与皮毛渲染速度提升最高达5倍，并改进了对大规模几何体的处理能力，同时为Grease Pencil增加了动态模糊效果。

NVIDIA RTX AI PC的相关信息请关注微博、抖音及哔哩哔哩官方账号。

软件产品信息请查看声明。