vLLM方式部署

vLLM（Very Large Language Models）也是一种高效的大型语言模型推理和部署框架，由加州大学伯克利分校开发。vLLM通过优化内存管理和计算资源的使用，从而实现对大型语言模型的高效推理和部署。vLLM可以支持安装在本地或者云环境中运行，并且同样支持GPU和CPU等多种硬件平台加速。

vllm-openai镜像推荐使用最新版本，本部署文档中所使用的版本为：v0.9.0.1。

安装vLLM镜像

提供在线和离线两种安装方式，推荐在线安装方式。

在线安装（推荐）

使用如下命令，从docker.io仓库中直接拉取对应版本的vllm镜像：

docker pull vllm/vllm-openai:v0.9.0.1

如果访问不了docker.io仓库，我们也提供了阿里云仓库的镜像，可以直接拉取

登录阿里云，密码为supermap@123

docker login --username=478386058@qq.com registry.cn-chengdu.aliyuncs.co

2. 安装vllm-openai

docker pull registry.cn-chengdu.aliyuncs.com/supermap-ai/vllm-openai:v0.9.0.1

3. 修改镜像名称

docker tag registry.cn-chengdu.aliyuncs.com/supermap-ai/vllm-openai:v0.9.0.1 vllm/vllm-openai:v0.9.0.1

离线安装

如果您的环境不支持在线安装，我们也提供了离线安装包，您可以点击网盘地址直接下载，并使用如下命令安装：

docker load -i vllm-openai-v0.9.0.1.tar

部署词嵌入大模型服务

iPortal AI助理支持基于专业知识的检索功能。专业检索功能需要专业知识的支撑，您需将专业知识存入知识库管理，并对其中的文档进行向量化处理。为此，需部署词嵌入模型服务以完成向量化操作。

提供在线和离线两种部署方式，推荐在线方式部署。

在线部署（推荐）

使用以下命令，启动vllm模型服务，在线部署bge-m3词嵌入模型服务：

docker run -d --gpus '"device=0"' -v /opt/models/modelscope:/root/.cache/modelscope -p 8001:8000 --ipc=host --name vllm-bge-m3 vllm/vllm-openai:v0.9.0.1 --model BAAI/bge-m3 --served-model-name bge-m3 --task embedding

离线部署

如果您的环境不支持在线部署，您可以先使用Git工具下载将模型下载到本地，再启动vllm模型服务完成部署：

1.安装Git：

apt-get install git

apt-get install git-lfs

git lfs install

2.创建目录，下载bge-m3模型到本地：

mkdir -p /opt/models/modelscope/hub/BAAI

cd /opt/models/modelscope/hub/BAAI

git clone https://www.modelscope.cn/BAAI/bge-m3.git

3.启动vllm模型服务，使用本地的bge-m3模型：

docker run -d --gpus '"device=0"' -v /opt/models/modelscope/hub/BAAI/bge-m3:/root/.cache/modelscope/hub/BAAI/bge-m3 -p 8001:8000 --ipc=host --name vllm-bge-m3 vllm/vllm-openai:v0.9.0.1 --model /opt/models/modelscope/hub/BAAI/bge-m3 --served-model-name bge-m3 --task embedding

部署开源大模型服务

iPortal AI助理已适配支持Function Call功能的大模型服务，但为了达到最优效果，推荐您选择Qwen3-14b模型服务进行部署。

提供在线和离线两种部署方式，推荐在线方式部署。

在线部署（推荐）

使用以下命令，启动vllm模型服务，在线部署qwen模型：

docker run -d --gpus '"device=0,1"' -v /opt/models/modelscope:/root/.cache/modelscope --env "VLLM_USE_MODELSCOPE=true" -p 8000:8000 --ipc=host --name vllm-qwen3-14b vllm/vllm-openai:v0.9.0.1 --model Qwen/Qwen3-14B --gpu-memory-utilization 0.85 --enable-auto-tool-choice --tool-call-parser hermes --tensor-parallel-size 2

离线部署

如果您的环境不支持在线部署，您可以先使用Git工具下载将模型下载到本地，再启动vllm模型服务完成部署：

1.安装Git：

apt-get install git

apt-get install git-lfs

git lfs install

2.创建目录，下载Qwen3-14B模型到本地：

mkdir -p /opt/models/modelscope/hub/Qwen

cd /opt/models/modelscope/hub/Qwen

git clone https://www.modelscope.cn/Qwen/Qwen3-14B.git

3.启动vllm模型服务，使用本地的qwen模型

docker run -d --gpus '"device=0,1"' -v /opt/models/modelscope/:/root/.cache/modelscope --env "VLLM_USE_MODELSCOPE=true" -p 8000:8000 --ipc=host --name vllm-qwen3-14b vllm/vllm-openai:v0.9.0.1 --model /root/.cache/modelscope/hub/Qwen/Qwen3-14B --served-model-name Qwen/Qwen3-14B --gpu-memory-utilization 0.95 --enable-auto-tool-choice --tool-call-parser hermes --tensor-parallel-size 2

参数名称	参数说明
-d	后台运行服务
--gpus	'"device=0,1"' 根据模型大小选择使用显卡； '"device=0,1"' 仅用ID为0和1的两张显卡； all 启用全部GPU
-v /opt/models/...	挂载模型目录，映射到容器
--env "VLLM_USE_MODELSCOPE=true"	替换从Hugging Face Hub加载模型到ModelScope
--name	指定容器名称
-p 8000:8000	端口映射
--ipc=host	共享内存通信
--model	模型路径，为容器中的路径
--served-model-name	模型名称，也是API模型标识
--tensor-parallel-size 2	32B-GPTQ-Int4参数量需要两张4090显卡，配置两张显卡张量并行
--gpu-memory-utilization 0.95	用于模型执行器的 GPU 内存的比例，范围可以从 0 到 1，默认为0.9，32B-GPTQ-Int4参数量需要GPU较多
--enable-auto-tool-choice --tool-call-parser hermes	开启模型函数调用