vLLM方式部署

vLLM(Very Large Language Models)也是一种高效的大型语言模型推理和部署框架,由加州大学伯克利分校开发。vLLM通过优化内存管理和计算资源的使用,从而实现对大型语言模型的高效推理和部署。vLLM可以支持安装在本地或者云环境中运行,并且同样支持GPU和CPU等多种硬件平台加速。

vllm-openai镜像推荐使用最新版本,本部署文档中所使用的版本为:v0.9.0.1。

安装vLLM镜像

提供在线和离线两种安装方式,推荐在线安装方式。

在线安装(推荐)

使用如下命令,从docker.io仓库中直接拉取对应版本的vllm镜像:

docker pull vllm/vllm-openai:v0.9.0.1

如果访问不了docker.io仓库,我们也提供了阿里云仓库的镜像,可以直接拉取

  1. 登录阿里云,密码为supermap@123

docker login --username=478386058@qq.com registry.cn-chengdu.aliyuncs.co

2. 安装vllm-openai

docker pull registry.cn-chengdu.aliyuncs.com/supermap-ai/vllm-openai:v0.9.0.1

3. 修改镜像名称

docker tag registry.cn-chengdu.aliyuncs.com/supermap-ai/vllm-openai:v0.9.0.1 vllm/vllm-openai:v0.9.0.1

离线安装

如果您的环境不支持在线安装,我们也提供了离线安装包,您可以点击网盘地址直接下载,并使用如下命令安装:

docker load -i vllm-openai-v0.9.0.1.tar

部署词嵌入大模型服务

iPortal AI助理支持基于专业知识的检索功能。专业检索功能需要专业知识的支撑,您需将专业知识存入知识库管理,并对其中的文档进行向量化处理。为此,需部署词嵌入模型服务以完成向量化操作。

提供在线和离线两种部署方式,推荐在线方式部署。

在线部署(推荐)

使用以下命令,启动vllm模型服务,在线部署bge-m3词嵌入模型服务:

docker run -d --gpus '"device=0"' -v /opt/models/modelscope:/root/.cache/modelscope -p 8001:8000 --ipc=host --name vllm-bge-m3 vllm/vllm-openai:v0.9.0.1 --model BAAI/bge-m3 --served-model-name bge-m3 --task embedding

离线部署

如果您的环境不支持在线部署,您可以先使用Git工具下载将模型下载到本地,再启动vllm模型服务完成部署:

1.安装Git:

apt-get install git

apt-get install git-lfs

git lfs install

2.创建目录,下载bge-m3模型到本地:

mkdir -p /opt/models/modelscope/hub/BAAI

cd /opt/models/modelscope/hub/BAAI

git clone https://www.modelscope.cn/BAAI/bge-m3.git

3.启动vllm模型服务,使用本地的bge-m3模型:

docker run -d --gpus '"device=0"' -v /opt/models/modelscope/hub/BAAI/bge-m3:/root/.cache/modelscope/hub/BAAI/bge-m3 -p 8001:8000 --ipc=host --name vllm-bge-m3 vllm/vllm-openai:v0.9.0.1 --model /opt/models/modelscope/hub/BAAI/bge-m3 --served-model-name bge-m3 --task embedding

部署开源大模型服务

iPortal AI助理已适配支持Function Call功能的大模型服务,但为了达到最优效果,推荐您选择Qwen3-14b模型服务进行部署。

提供在线和离线两种部署方式,推荐在线方式部署。

在线部署(推荐)

使用以下命令,启动vllm模型服务,在线部署qwen模型:

docker run -d --gpus '"device=0,1"' -v /opt/models/modelscope:/root/.cache/modelscope  --env "VLLM_USE_MODELSCOPE=true" -p 8000:8000 --ipc=host --name vllm-qwen3-14b vllm/vllm-openai:v0.9.0.1 --model Qwen/Qwen3-14B --gpu-memory-utilization 0.85 --enable-auto-tool-choice --tool-call-parser hermes --tensor-parallel-size 2 

离线部署

如果您的环境不支持在线部署,您可以先使用Git工具下载将模型下载到本地,再启动vllm模型服务完成部署:

1.安装Git:

apt-get install git

apt-get install git-lfs

git lfs install

2.创建目录,下载Qwen3-14B模型到本地:

mkdir -p /opt/models/modelscope/hub/Qwen

cd /opt/models/modelscope/hub/Qwen

git clone https://www.modelscope.cn/Qwen/Qwen3-14B.git

3.启动vllm模型服务,使用本地的qwen模型

docker run -d --gpus '"device=0,1"' -v /opt/models/modelscope/:/root/.cache/modelscope --env "VLLM_USE_MODELSCOPE=true" -p 8000:8000 --ipc=host --name vllm-qwen3-14b vllm/vllm-openai:v0.9.0.1 --model /root/.cache/modelscope/hub/Qwen/Qwen3-14B --served-model-name Qwen/Qwen3-14B --gpu-memory-utilization 0.95 --enable-auto-tool-choice --tool-call-parser hermes --tensor-parallel-size 2

参数名称 参数说明
-d        
 
后台运行服务
--gpus '"device=0,1"' 根据模型大小选择使用显卡;  '"device=0,1"' 仅用ID为0和1的两张显卡;     all                 启用全部GPU
-v /opt/models/... 挂载模型目录,映射到容器
--env "VLLM_USE_MODELSCOPE=true"       替换从Hugging Face Hub加载模型到ModelScope
--name              指定容器名称
-p 8000:8000 端口映射
--ipc=host       共享内存通信
--model           模型路径,为容器中的路径

--served-model-name    
模型名称,也是API模型标识
--tensor-parallel-size 2 32B-GPTQ-Int4参数量需要两张4090显卡,配置两张显卡张量并行
--gpu-memory-utilization 0.95  用于模型执行器的 GPU 内存的比例,范围可以从 0 到 1,默认为0.9,32B-GPTQ-Int4参数量需要GPU较多
--enable-auto-tool-choice --tool-call-parser hermes   开启模型函数调用