OpenClaw 本地模型方案:模型推荐 + vLLM 部署优化完整教程
好的,我现在需要帮用户总结一篇文章,控制在100字以内。用户给了一篇关于如何在本地部署模型并优化OpenClaw性能的文章。首先,我得通读全文,抓住主要内容。 文章开头提到Ollama虽然安装方便,但在OpenClaw中表现不佳,主要问题推理速度慢和上下文耗尽。接着推荐了vLLM作为单卡部署的最佳选择,并详细介绍了安装步骤,包括WSL2、CUDA驱动、Python环境、vLLM安装、模型下载和启动服务。 然后是配置OpenClaw,包括安装Node.js和OpenClaw,设置模型参数。还提到了优化建议,比如调整上下文长度、温度、最大tokens,并优化vLLM启动参数以提高GPU利用率。最后给出了性能参考数据。 用户要求总结在100字以内,不需要特定开头。我需要提炼关键点:推荐vLLM替代Ollama,详细步骤包括环境配置、模型部署、OpenClaw集成和优化参数。确保涵盖主要优势和解决方案。 现在组织语言,确保简洁明了。重点突出vLLM的优势和部署过程的关键步骤。 </think> 文章介绍了如何通过vLLM本地部署模型并优化OpenClaw性能,推荐使用vLLM替代Ollama以解决推理速度慢和上下文耗尽问题,并详细讲解了从环境配置到模型启动的完整流程及优化建议。 2026-3-19 01:22:0 Author: blog.upx8.com(查看原文) 阅读量:13 收藏

o8qIAotpEFAebhAgI9LDNDCsgPD5ivpGOAHfBHtplv dy 360p upscayl 4x realesrgan

很多第一次尝试本地部署模型时,往往会选择 Ollama它的优点确实明显:安装简单、配置方便,几乎可以做到“傻瓜式”部署。

但在 OpenClaw 这种自动任务场景下,Ollama 方式推理速度并不理想。实际使用往往会遇到问题:

  • 推理速度

  • 上下文长度容易

连续运行多个任务后,经常出现上下文不够情况。

因此,如果希望获得稳定、高效本地部署体验,需要选择合适推理框架。

一般来说:

  • 远程集群 / 多 Agent 场景推荐使用 SGLang

  • 本地部署强烈推荐 vLLM

目前来看,vLLM 可以部署 OpenClaw 最佳解决方案之一

接下来我就给大家详细介绍vLLM 部署本地模型并对接到OpenClaw 的整个过程:

前期准备:

在开始之前,建议大家安装下 Windows Terminal,它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统!

点击下载

20260317 1773716384

一、安装 WSL2

在 PowerShell(管理员)执行:

安装完成后电脑,然后安装Ubuntu

检查版本:

确保输出结果是:WSL2

二、WSL 安装 CUDA 驱动支持

确认 Windows 安装 NVIDIA 驱动。

检查:

然后在 WSL Ubuntu 运行:

如果出现信息说明 GPU直通成功。例如:

20260317 1773737191

三、安装 Python 环境

更新系统:

安装 Python:

sudo apt install python3-pip python3-venv -y



创建虚拟环境:

进入环境:

source vllm-env/bin/activate



四、安装 vLLM

安装命令:

pip install --upgrade pip



安装完成后测试:

python -c "import vllm; print('vLLM installed')"



五、下载模型

推荐模型:

模型优点:

  • 中文

  • Agent能力

  • 支持更全面的工具调用能力

启动 vLLM 自动下载模型。

⚠️ 显存提示

本教程演示使用的是 24GB 显存显卡。如果你的显存更小,建议选择参数规模更小的模型,否则在加载模型时可能会出现:显存不足(Out of Memory)的问题。

如果显存不够大,那么可以选择:Qwen2.5-7B-Instruct-AWQ 或  Qwen2.5-4B 等更小的模型

六、启动 vLLM 服务

运行命令:

python -m vllm.entrypoints.openai.api_server \

--model Qwen/Qwen2.5-14B-Instruct-AWQ \

--quantization awq_marlin \

--gpu-memory-utilization 0.9 \

--enable-auto-tool-choice \

--tool-call-parser hermes



成功看到:

20260317 1773737101

说明 API 已启动成功。

七、测试模型

在 Windows PowerShell 测试:

curl http://127.0.0.1:8000/v1/models



返回模型信息:

Qwen/Qwen2.5-14B-Instruct-AWQ

说明连接正常。

八、安装 OpenClaw

在 WSL 子系统里执行安装命令:

先安装Nodejs

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -<br />sudo apt install -y nodejs



再执行安装Openclaw

sudo npm install -g openclaw@latest



九、OpenClaw 配置本地模型

进入配置:

添加模型:

模型提供商必须选择自定义的:

20260317 1773737026

Base URL:http://127.0.0.1:8000/v1

API key:123456 (随便填写)

模型名称:Qwen2.5-14B-Instruct-AWQ

最后保存即可!

20260317 1773737041

十、OpenClaw 推荐参数(优化)

为了避免顿:

Context length:6000–8000

Temperature:0.7

Max tokens:2048

十一、优化推理速度(强烈推荐)

vLLM启动参数建议:

注意:这是RTX4090显卡的配置,请根据你自己的显卡显存来适当修改max-model-len  后面的参数

python -m vllm.entrypoints.openai.api_server \

--model Qwen/Qwen2.5-14B-Instruct-AWQ \

--quantization awq_marlin \

--gpu-memory-utilization 0.9 \

--enable-auto-tool-choice \

--tool-call-parser hermes



效果:

  • prefix cache 加速 prompt

  • GPU利用更高

十二、解决长对话卡顿

在 OpenClaw System Prompt 加:

When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.

这样:
8000 token

200 token memory

速度不会下降。

十三、最终性能参考(RTX4090)

Qwen2.5-14B-Instruct-AWQ:

指标 数值
token生成速度 90–130 token/s
首 token 延迟 0.4 – 0.8 
最大上下文 32K tokens建议实际用 8K–16K)
占用 10–12GB

本地模型跑 Openclaw 就完全用。

视频教程:https://www.youtube.com/watch?v=rHmdJjOytRk


文章来源: https://blog.upx8.com/OpenClaw-vLLM
如有侵权请联系:admin#unsafe.sh