前文 使用vLLM + Qwen3.5部署内网AI笔记 介绍了联网的情况下安装推理环境并下载部署大模型的过程。定位是内网使用,一般部署完后会转移到与外界互联网隔绝的环境运行。为了不断升级AI的性能和能力,需要不定期更新模型和软件栈。
本文简要介绍内网升级vLLM及AI模型,本人使用相同的方法将内网的Qwen 3.5顺利升级到Qwen 3.6。
升级vLLM
vLLM更新较为频繁,基本上每个月有2到3次版本发布。为了使用新的特性,建议在硬件支持的情况下升级到最新版本。
由于使用uv安装vLLM,与其说升级不如说是初始化一个新的vLLM环境:
mkdir vllm-new && cd $_ uv venv --python 3.12 --seed source .venv/bin/activate uv pip install vllm --torch-backend=cu129
通过几个简单的命令,我们在新的目录下安装了新版vLLM。
下载新AI模型
接下来是下载新的AI模型,还是使用huggingface-cli来操作:
HF_ENDPOINT=https://hf-mirror.com hf download Qwen/Qwen3.6-27B-FP8 \ --local-dir Qwen3.6-27B-FP8
将新的vLLM环境和新模型文件打包到内网
有了新的vLLM环境和新的模型文件,接下来将所有文件打包送到内网机器上部署:
# 打包vLLM和模型文件(下面的语句假设模型文件在vllm-new文件夹中) tar -zcf vllm-new.tgz vllm-new # 拷贝到内网机器 # 解压文件 tar -zxf vllm-new.tgz
运行新的AI模型:
export OMP_NUM_THREADS=4 export PORT=8001 export MODEL=Qwen3.6-27B-FP8 export VLLM_MARLIN_USE_ATOMIC_ADD=1 export CUDA_VISIBLE_DEVICES="0" # 只使用第一张显卡部署 vllm serve ./$MODEL \ --served-model-name "$MODEL" \ --mamba-cache-model align \ --gpu-memory-utilization 0.9 \ --max-model-len 262656 \ --max-num-seqs 32 \ --max-num-batched-tokens 32768 \ --enable-prefix-caching \ --enable-chunked-prefill \ --reasoning-parser qwen3 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --language-model-only \ --port $PORT \ --override-generation-config '{"temperature": 0.6, "top_p": 0.95, "top_k": 20, "min_p": 0.00}' \ --kv-cache-dtype fp8 \ --block-size 32 \ --load-format safetensors
至此,我们成功升级了vLLM并部署了新的Qwen 3.6模型。
注意事项
1. 通过压缩包方式拷贝vLLM环境需要保持路径一致,比如外网机器是 /root/vllm-new,那么解压后内网路径也应该是 /root/vllm-new,否则 vLLM 等通过 python 启动的脚本会提示“interpretor找不到”的错误。
如果你不能保证路径一致,可以修改脚本和配置的 python 路径:
cd .venv # 修改 pyvenv.cfg的home路径 sed i 's#old-path#new-path#' pyvenv.cfg cd .venv/bin sed i 's#old-path#new-path#' *
2. 升级过程避免大的升级,例如大幅升级vLLM版本,pytorch版本等,避免不兼容问题。