vLLM(Very Large Language Models)也是一种高效的大型语言模型推理和部署框架,由加州大学伯克利分校开发。vLLM通过优化内存管理和计算资源的使用,从而实现对大型语言模型的高效推理和部署。vLLM可以支持安装在本地或者云环境中运行,并且同样支持GPU和CPU等多种硬件平台加速。
vllm-openai镜像推荐使用最新版本,本部署文档中所使用的版本为:v0.9.0.1。
安装vLLM镜像
提供在线和离线两种安装方式,推荐在线安装方式。
在线安装(推荐)
使用如下命令,从docker.io仓库中直接拉取对应版本的vllm镜像:
docker pull vllm/vllm-openai:v0.9.0.1
如果访问不了docker.io仓库,我们也提供了阿里云仓库的镜像,可以直接拉取
- 登录阿里云,密码为
supermap@123
docker login --username=478386058@qq.com
registry.cn-chengdu.aliyuncs.co
2. 安装vllm-openai
docker pull registry.cn-chengdu.aliyuncs.com/supermap-ai/vllm-openai:v0.9.0.1
3. 修改镜像名称
docker tag registry.cn-chengdu.aliyuncs.com/supermap-ai/vllm-openai:v0.9.0.1 vllm/vllm-openai:v0.9.0.1
离线安装
如果您的环境不支持在线安装,我们也提供了离线安装包,您可以点击网盘地址直接下载,并使用如下命令安装:
docker load -i vllm-openai-v0.9.0.1.tar
部署词嵌入大模型服务
iPortal AI助理支持基于专业知识的检索功能。专业检索功能需要专业知识的支撑,您需将专业知识存入知识库管理,并对其中的文档进行向量化处理。为此,需部署词嵌入模型服务以完成向量化操作。
提供在线和离线两种部署方式,推荐在线方式部署。
在线部署(推荐)
使用以下命令,启动vllm模型服务,在线部署bge-m3词嵌入模型服务:
docker run -d --gpus '"device=0"' -v /opt/models/modelscope:/root/.cache/modelscope -p 8001:8000 --ipc=host --name vllm-bge-m3 vllm/vllm-openai:v0.9.0.1 --model BAAI/bge-m3 --served-model-name bge-m3 --task embedding
离线部署
如果您的环境不支持在线部署,您可以先使用Git工具下载将模型下载到本地,再启动vllm模型服务完成部署:
1.安装Git:
apt-get install git
apt-get install git-lfs
git lfs install
2.创建目录,下载bge-m3模型到本地:
mkdir -p /opt/models/modelscope/hub/BAAI
cd /opt/models/modelscope/hub/BAAI
git clone https://www.modelscope.cn/BAAI/bge-m3.git
3.启动vllm模型服务,使用本地的bge-m3模型:
docker run -d --gpus '"device=0"' -v /opt/models/modelscope/hub/BAAI/bge-m3:/root/.cache/modelscope/hub/BAAI/bge-m3 -p 8001:8000 --ipc=host --name vllm-bge-m3 vllm/vllm-openai:v0.9.0.1 --model /opt/models/modelscope/hub/BAAI/bge-m3 --served-model-name bge-m3 --task embedding
部署开源大模型服务
iPortal AI助理已适配支持Function Call功能的大模型服务,但为了达到最优效果,推荐您选择Qwen3-14b模型服务进行部署。
提供在线和离线两种部署方式,推荐在线方式部署。
在线部署(推荐)
使用以下命令,启动vllm模型服务,在线部署qwen模型:
docker run -d --gpus '"device=0,1"' -v /opt/models/modelscope:/root/.cache/modelscope --env "VLLM_USE_MODELSCOPE=true" -p 8000:8000 --ipc=host --name vllm-qwen3-14b vllm/vllm-openai:v0.9.0.1 --model Qwen/Qwen3-14B --gpu-memory-utilization 0.85 --enable-auto-tool-choice --tool-call-parser hermes --tensor-parallel-size 2
离线部署
如果您的环境不支持在线部署,您可以先使用Git工具下载将模型下载到本地,再启动vllm模型服务完成部署:
1.安装Git:
apt-get install git
apt-get install git-lfs
git lfs install
2.创建目录,下载Qwen3-14B模型到本地:
mkdir -p /opt/models/modelscope/hub/Qwen
cd /opt/models/modelscope/hub/Qwen
git clone https://www.modelscope.cn/Qwen/Qwen3-14B.git
3.启动vllm模型服务,使用本地的qwen模型
docker run -d --gpus '"device=0,1"' -v /opt/models/modelscope/:/root/.cache/modelscope --env "VLLM_USE_MODELSCOPE=true" -p 8000:8000 --ipc=host --name vllm-qwen3-14b vllm/vllm-openai:v0.9.0.1 --model /root/.cache/modelscope/hub/Qwen/Qwen3-14B --served-model-name Qwen/Qwen3-14B --gpu-memory-utilization 0.95 --enable-auto-tool-choice --tool-call-parser hermes --tensor-parallel-size 2
参数名称 | 参数说明 |
---|---|
-d |
后台运行服务 |
--gpus | '"device=0,1"' 根据模型大小选择使用显卡; '"device=0,1"' 仅用ID为0和1的两张显卡; all 启用全部GPU |
-v /opt/models/... | 挂载模型目录,映射到容器 |
--env "VLLM_USE_MODELSCOPE=true" | 替换从Hugging Face Hub加载模型到ModelScope |
--name | 指定容器名称 |
-p 8000:8000 | 端口映射 |
--ipc=host | 共享内存通信 |
--model | 模型路径,为容器中的路径 |
--served-model-name |
模型名称,也是API模型标识 |
--tensor-parallel-size 2 | 32B-GPTQ-Int4参数量需要两张4090显卡,配置两张显卡张量并行 |
--gpu-memory-utilization 0.95 | 用于模型执行器的 GPU 内存的比例,范围可以从 0 到 1,默认为0.9,32B-GPTQ-Int4参数量需要GPU较多 |
--enable-auto-tool-choice --tool-call-parser hermes | 开启模型函数调用 |