vllm

vllm

下载安装

pip install vllm

pip install flash-attn --no-build-isolation

运行

单卡
vllm serve Qwen3-8B --dtype auto --port 6006 --max_model_len 8784 --gpu_memory_utilization 0.8

#Qwen3-8B:模型权重位置
#dtype:数据类型,一般直接auto就可以了,低版本的显卡可能需要自己设置,如2080要设置为half
#port:端口号
#limit_mm_per_prompt image=4,默认是1,这样每次请求可以输入多张图片
#max_model_len:每次全球最大的token长度,爆显存了就改小
#gpu_memory_utilization:GPU最大利用率,爆显存了就改小,我现在一般设置为0.7-0.8 \

#多卡
vllm serve Qwen3-8B --dtype half --port 6006 --tensor-parallel-size 2 --pipeline-parallel-size 2 --gpu-memory-utilization 0.7 --max_model_len 8784

#tensor-parallel-size:模型的权重将被分割成n部分分布在GPU上。
#pipeline-parallel-size:设置流水线并行的大小为k,意味着模型的不同层将被分布到k个GPU上。
#保证n*k=卡的数量,正好等于您拥有的GPU数量。


vllm 禁用思考格式

vllm serve Qwen3-8B --dtype auto --port 6006 --max_model_len 8784 --gpu_memory_utilization 0.8 --enable-reasoning --reasoning-parser deepseek_r1

open-webui 下载安装

pip install open-webui

source /etc/network_turbo

#可以提前先运行模型 openwebui会自动检测
vllm serve Qwen3-8B --dtype auto --port 5000 --max_model_len 8784 --gpu_memory_utilization 0.8

export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=False
export OPENAI_API_BASE_URL=http://127.0.0.1:5000/v1
export DEFAULT_MODELS="Qwen3-8B"
open-webui serve --port 6006

#http://localhost:8000

openai格式接口

pip install openai

python -m vllm.entrypoints.openai.api_server --served-model-name Qwen3-8B --model /root/autodl-tmp/Qwen/Qwen3-8B --dtype auto --port 6006 --max_model_len 8784 --gpu_memory_utilization 0.8

pytroch

pytroch安装

2025-6-28 17:10:04

pytroch

pytorch基础

2025-7-3 22:04:54

搜索