SGLang 是一种专为大型语言模型(LLM)和视觉语言模型(VLM)设计的高效服务框架,旨在提升模型推理速度、优化资源利用,并简化复杂语言模型应用的开发流程。
本文将以部署 Qwen3-14B 模型服务为例,介绍离线环境中通过SGLang方式部署模型服务的步骤:
- 前往网盘的“deb”文件夹,下载SGLang Docker镜像(网盘中提供的SGLang Docker镜像版本为v0.4.7.post1-cu124)
- 下载完成后,加载SGLang Docker镜像
docker load -i sglang-image.tar
- 准备模型文件
将 HF 格式的模型文件(如Qwen3-14B)存放在本地目录,例如
/path/to/your/hf-models
- 启动 SGLang 服务
使用以下命令启动 SGLang 推理服务器:
docker run -d --gpus all \
--name sglang-qwen3-14b \
--restart=always \
--shm-size 60g \
--ipc=host \
-p 8001:80 \
-v /path/to/your/hf-models:/models \
swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/lmsysorg/sglang:v0.4.7.post1-cu124 \
python3 -m sglang.launch_server \
--model-path /models/Qwen/Qwen3-14B \
--served-model-name Qwen3-14B \
--host 0.0.0.0 \
--port 80 \
--tp 2 \
--context-length 32768 \
--reasoning-parser qwen3 \
--tool-call-parser qwen25- --shm-size 60g:设置较大的共享内存,防止大模型推理时出错
- --ipc=host:允许容器与宿主机共享IPC命名空间,有助于多进程通信
- -v /path/to/your/hf-models:/models:将包含模型文件的目录挂载到容器中
- --model-path: 指定模型在容器内的路径
- --tp 2: 启用张量并行,设置为2表示使用2个GPU进行推理,以提升性能
- --reasoning-parser, --tool-call-parser: 为特定模型(如Qwen3)配置专用解析器,以支持其特有的功能(如工具调用)
-
验证服务
SGLang 提供与 OpenAI 兼容的 API。使用以下命令检查模型是否在线:
curl http://localhost:8001/v1/models