SGLang方式部署

SGLang 是一种专为大型语言模型(LLM)和视觉语言模型(VLM)设计的高效服务框架,旨在提升模型推理速度、优化资源利用,并简化复杂语言模型应用的开发流程

本文将以部署 Qwen3-14B 模型服务为例,介绍离线环境中通过SGLang方式部署模型服务的步骤:

  1. 前往网盘的“deb”文件夹,下载SGLang Docker镜像(网盘中提供的SGLang Docker镜像版本为v0.4.7.post1-cu124)
  2. 下载完成后,加载SGLang Docker镜像

    docker load -i sglang-image.tar

  3. 准备模型文件

    将 HF 格式的模型文件(如Qwen3-14B)存放在本地目录,例如 /path/to/your/hf-models

  4. 启动 SGLang 服务

    使用以下命令启动 SGLang 推理服务器

    docker run -d --gpus all \
      --name sglang-qwen3-14b \
      --restart=always \
      --shm-size 60g \
      --ipc=host \
      -p 8001:80 \
      -v /path/to/your/hf-models:/models \
      swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/lmsysorg/sglang:v0.4.7.post1-cu124 \
      python3 -m sglang.launch_server \
        --model-path /models/Qwen/Qwen3-14B \
        --served-model-name Qwen3-14B \
        --host 0.0.0.0 \
        --port 80 \
        --tp 2 \
        --context-length 32768 \
        --reasoning-parser qwen3 \
        --tool-call-parser qwen25

    • --shm-size 60g设置较大的共享内存,防止大模型推理时出错
    • --ipc=host:允许容器与宿主机共享IPC命名空间,有助于多进程通信
    • -v /path/to/your/hf-models:/models将包含模型文件的目录挂载到容器中
    • --model-path: 指定模型在容器内的路径
    • --tp 2: 启用张量并行,设置为2表示使用2个GPU进行推理,以提升性能
    • --reasoning-parser, --tool-call-parser: 为特定模型(如Qwen3)配置专用解析器,以支持其特有的功能(如工具调用)
  5. 验证服务

    SGLang 提供与 OpenAI 兼容的 API。使用以下命令检查模型是否在线

    curl http://localhost:8001/v1/models