内网升级vLLM及模型教程
AI教程本文目录升级vLLM下载新AI模型将新的vLLM环境和新模型文件打包到内网注意事项前文 使用vLLM + Qwen3.5部署内网AI笔记 介绍了联网的情况下安装推理环境并下载部署大模型的过程 2026-6-2 03:28:19 Author: itlanyan.com(查看原文) 阅读量:6 收藏

AI教程

前文 使用vLLM + Qwen3.5部署内网AI笔记 介绍了联网的情况下安装推理环境并下载部署大模型的过程。定位是内网使用,一般部署完后会转移到与外界互联网隔绝的环境运行。为了不断升级AI的性能和能力,需要不定期更新模型和软件栈。

本文简要介绍内网升级vLLM及AI模型,本人使用相同的方法将内网的Qwen 3.5顺利升级到Qwen 3.6

升级vLLM

vLLM更新较为频繁,基本上每个月有2到3次版本发布。为了使用新的特性,建议在硬件支持的情况下升级到最新版本。

由于使用uv安装vLLM,与其说升级不如说是初始化一个新的vLLM环境

mkdir vllm-new && cd $_
uv venv --python 3.12 --seed
source .venv/bin/activate
uv pip install vllm --torch-backend=cu129

通过几个简单的命令,我们在新的目录下安装了新版vLLM。

下载新AI模型

接下来是下载新的AI模型,还是使用huggingface-cli来操作:

HF_ENDPOINT=https://hf-mirror.com hf download  Qwen/Qwen3.6-27B-FP8 \
--local-dir Qwen3.6-27B-FP8

将新的vLLM环境和新模型文件打包到内网

有了新的vLLM环境和新的模型文件,接下来将所有文件打包送到内网机器上部署

# 打包vLLM和模型文件(下面的语句假设模型文件在vllm-new文件夹中)
tar -zcf vllm-new.tgz vllm-new
# 拷贝到内网机器
# 解压文件
tar -zxf vllm-new.tgz

运行新的AI模型:

export OMP_NUM_THREADS=4
export PORT=8001
export MODEL=Qwen3.6-27B-FP8
export VLLM_MARLIN_USE_ATOMIC_ADD=1
export CUDA_VISIBLE_DEVICES="0" # 只使用第一张显卡部署

vllm serve ./$MODEL \
    --served-model-name "$MODEL" \
    --mamba-cache-model align \
    --gpu-memory-utilization 0.9 \
    --max-model-len 262656 \
    --max-num-seqs 32 \
    --max-num-batched-tokens 32768 \
    --enable-prefix-caching \
    --enable-chunked-prefill \
    --reasoning-parser qwen3 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --language-model-only \
    --port $PORT \
    --override-generation-config '{"temperature": 0.6, "top_p": 0.95, "top_k": 20, "min_p": 0.00}' \
    --kv-cache-dtype fp8 \
    --block-size 32 \
    --load-format safetensors

至此,我们成功升级了vLLM并部署了新的Qwen 3.6模型。

注意事项

1. 通过压缩包方式拷贝vLLM环境需要保持路径一致,比如外网机器是 /root/vllm-new,那么解压后内网路径也应该是 /root/vllm-new,否则 vLLM 等通过 python 启动的脚本会提示“interpretor找不到”的错误。

如果你不能保证路径一致,可以修改脚本和配置的 python 路径:

cd .venv
# 修改 pyvenv.cfg的home路径
sed i 's#old-path#new-path#' pyvenv.cfg

cd .venv/bin
sed i 's#old-path#new-path#' *

2. 升级过程避免大的升级,例如大幅升级vLLM版本,pytorch版本等,避免不兼容问题。


文章来源: https://itlanyan.com/upgrade-vllm-and-ai-models-offline/
如有侵权请联系:admin#unsafe.sh