SGLang方式部署

SGLang 是一种专为大型语言模型（LLM）和视觉语言模型（VLM）设计的高效服务框架，旨在提升模型推理速度、优化资源利用，并简化复杂语言模型应用的开发流程。

本文将以部署 Qwen3-14B 模型服务为例，介绍离线环境中通过SGLang方式部署模型服务的步骤：

前往网盘的“deb”文件夹，下载SGLang Docker镜像（网盘中提供的SGLang Docker镜像版本为v0.4.7.post1-cu124）
下载完成后，加载SGLang Docker镜像
docker load -i sglang-image.tar
准备模型文件
将 HF 格式的模型文件（如Qwen3-14B）存放在本地目录，例如 /path/to/your/hf-models
启动 SGLang 服务
使用以下命令启动 SGLang 推理服务器：

docker run -d --gpus all \ --name sglang-qwen3-14b \ --restart=always \ --shm-size 60g \ --ipc=host \ -p 8001:80 \ -v /path/to/your/hf-models:/models \ swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/lmsysorg/sglang:v0.4.7.post1-cu124 \ python3 -m sglang.launch_server \ --model-path /models/Qwen/Qwen3-14B \ --served-model-name Qwen3-14B \ --host 0.0.0.0 \ --port 80 \ --tp 2 \ --context-length 32768 \ --reasoning-parser qwen3 \ --tool-call-parser qwen25
- --shm-size 60g：设置较大的共享内存，防止大模型推理时出错
- --ipc=host：允许容器与宿主机共享IPC命名空间，有助于多进程通信
- -v /path/to/your/hf-models:/models：将包含模型文件的目录挂载到容器中
- --model-path: 指定模型在容器内的路径
- --tp 2: 启用张量并行，设置为2表示使用2个GPU进行推理，以提升性能
- --reasoning-parser, --tool-call-parser: 为特定模型（如Qwen3）配置专用解析器，以支持其特有的功能（如工具调用）
验证服务

SGLang 提供与 OpenAI 兼容的 API。使用以下命令检查模型是否在线：

curl http://localhost:8001/v1/models