vllm

下载安装

pip install vllm

pip install flash-attn --no-build-isolation

运行

单卡
vllm serve Qwen3-8B --dtype auto --port 6006 --max_model_len 8784 --gpu_memory_utilization 0.8

#Qwen3-8B：模型权重位置
#dtype：数据类型，一般直接auto就可以了，低版本的显卡可能需要自己设置，如2080要设置为half
#port：端口号
#limit_mm_per_prompt image=4，默认是1，这样每次请求可以输入多张图片
#max_model_len：每次全球最大的token长度，爆显存了就改小
#gpu_memory_utilization：GPU最大利用率，爆显存了就改小，我现在一般设置为0.7-0.8 \

#多卡
vllm serve Qwen3-8B --dtype half --port 6006 --tensor-parallel-size 2 --pipeline-parallel-size 2 --gpu-memory-utilization 0.7 --max_model_len 8784

#tensor-parallel-size：模型的权重将被分割成n部分分布在GPU上。
#pipeline-parallel-size：设置流水线并行的大小为k，意味着模型的不同层将被分布到k个GPU上。
#保证n*k=卡的数量，正好等于您拥有的GPU数量。

vllm 禁用思考格式

vllm serve Qwen3-8B --dtype auto --port 6006 --max_model_len 8784 --gpu_memory_utilization 0.8 --enable-reasoning --reasoning-parser deepseek_r1

open-webui 下载安装

pip install open-webui

source /etc/network_turbo

#可以提前先运行模型 openwebui会自动检测
vllm serve Qwen3-8B --dtype auto --port 5000 --max_model_len 8784 --gpu_memory_utilization 0.8

export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=False
export OPENAI_API_BASE_URL=http://127.0.0.1:5000/v1
export DEFAULT_MODELS="Qwen3-8B"
open-webui serve --port 6006

#http://localhost:8000

openai格式接口

pip install openai

python -m vllm.entrypoints.openai.api_server --served-model-name Qwen3-8B --model /root/autodl-tmp/Qwen/Qwen3-8B --dtype auto --port 6006 --max_model_len 8784 --gpu_memory_utilization 0.8

下载安装

运行

vllm 禁用思考格式

open-webui 下载安装

openai格式接口

pytroch安装

pytorch基础

下载安装

运行

vllm 禁用思考格式

open-webui 下载安装

openai格式接口

相关文章：

pytroch安装

pytorch基础

miniconda

pip

pytroch安装

pytorch基础