内网升级vLLM及模型教程

本文目录

升级vLLM
下载新AI模型
将新的vLLM环境和新模型文件打包到内网
注意事项

前文使用vLLM + Qwen3.5部署内网AI笔记介绍了联网的情况下安装推理环境并下载部署大模型的过程。定位是内网使用，一般部署完后会转移到与外界互联网隔绝的环境运行。为了不断升级AI的性能和能力，需要不定期更新模型和软件栈。

本文简要介绍内网升级vLLM及AI模型，本人使用相同的方法将内网的Qwen 3.5顺利升级到Qwen 3.6。

升级vLLM

vLLM更新较为频繁，基本上每个月有2到3次版本发布。为了使用新的特性，建议在硬件支持的情况下升级到最新版本。

由于使用uv安装vLLM，与其说升级不如说是初始化一个新的vLLM环境：

mkdir vllm-new && cd $_
uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm --torch-backend=cu129

通过几个简单的命令，我们在新的目录下安装了新版vLLM。

下载新AI模型

接下来是下载新的AI模型，还是使用huggingface-cli来操作：

HF_ENDPOINT=https://hf-mirror.com hf download  Qwen/Qwen3.6-27B-FP8 \
--local-dir Qwen3.6-27B-FP8

将新的vLLM环境和新模型文件打包到内网

有了新的vLLM环境和新的模型文件，接下来将所有文件打包送到内网机器上部署：

# 打包vLLM和模型文件（下面的语句假设模型文件在vllm-new文件夹中）
tar -zcf vllm-new.tgz vllm-new
# 拷贝到内网机器
# 解压文件
tar -zxf vllm-new.tgz

运行新的AI模型：

export OMP_NUM_THREADS=4
export PORT=8001
export MODEL=Qwen3.6-27B-FP8
export VLLM_MARLIN_USE_ATOMIC_ADD=1
export CUDA_VISIBLE_DEVICES="0" # 只使用第一张显卡部署

vllm serve ./$MODEL \
    --served-model-name "$MODEL" \
    --mamba-cache-model align \
    --gpu-memory-utilization 0.9 \
    --max-model-len 262656 \
    --max-num-seqs 32 \
    --max-num-batched-tokens 32768 \
    --enable-prefix-caching \
    --enable-chunked-prefill \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --language-model-only \
    --port $PORT \
    --override-generation-config '{"temperature": 0.6, "top_p": 0.95, "top_k": 20, "min_p": 0.00}' \
    --kv-cache-dtype fp8 \
    --block-size 32 \
    --load-format safetensors

至此，我们成功升级了vLLM并部署了新的Qwen 3.6模型。

注意事项

1. 通过压缩包方式拷贝vLLM环境需要保持路径一致，比如外网机器是 /root/vllm-new，那么解压后内网路径也应该是 /root/vllm-new，否则 vLLM 等通过 python 启动的脚本会提示“interpretor找不到”的错误。

如果你不能保证路径一致，可以修改脚本和配置的 python 路径：

cd .venv
# 修改 pyvenv.cfg的home路径
sed i 's#old-path#new-path#' pyvenv.cfg

cd .venv/bin
sed i 's#old-path#new-path#' *

2. 升级过程避免大的升级，例如大幅升级vLLM版本，pytorch版本等，避免不兼容问题。