执行摘要
升级 FlashInfer 到 0.6.12,CUTLASS DSL 到 4.5.2
根据 PR 标题和描述,此变更为常规依赖升级,以跟进上游更新,获取可能的 bug 修复和性能提升。
建议合入,但需确认 CI 中无关失败不会影响后续主线。
作者 mmangkad 在评论中指出唯一失败的 CI 测试(Gemma 4 26B MTP GSM8K)已在主分支上禁用,与本 PR 无关。
根据 PR 标题和描述,此变更为常规依赖升级,以跟进上游更新,获取可能的 bug 修复和性能提升。
建议合入,但需确认 CI 中无关失败不会影响后续主线。
作者 mmangkad 在评论中指出唯一失败的 CI 测试(Gemma 4 26B MTP GSM8K)已在主分支上禁用,与本 PR 无关。
| 文件 | 模块 | 状态 | 重要度 |
|---|---|---|---|
python/pyproject.toml |
项目配置 | modified | 3.77 |
python/sglang/srt/entrypoints/engine.py |
引擎入口 | modified | 4.53 |
python/sglang/srt/utils/common.py |
工具库 | modified | 4.03 |
docker/Dockerfile |
容器构建 | modified | 2.78 |
python/pyproject.toml
configuration
核心依赖版本约束更新,定义项目安装时所需的最低版本。
[project]
dependencies = [
# ...
"flashinfer_python[cu13]==0.6.12", # 从 0.6.11.post1 升级
"flashinfer_cubin==0.6.12", # 同步升级
# ...
"nvidia-cutlass-dsl[cu13]==4.5.2", # 从 4.5.1 升级
# ...
]
python/sglang/srt/entrypoints/engine.py
core-logic
运行时版本断言更新,确保启动时加载的 FlashInfer 版本 >= 0.6.12。
# Check flashinfer version
if not get_bool_env_var("SGLANG_SKIP_SGL_KERNEL_VERSION_CHECK"):
if server_args.attention_backend == "flashinfer":
assert_pkg_version(
"flashinfer_python",
"0.6.12", # 从 0.6.11.post1 升级到 0.6.12
"Please uninstall the old version and "
"reinstall the latest version by following the instructions "
"at https://docs.flashinfer.ai/installation.html.",
)
if _is_cuda:
assert_pkg_version(
"sglang-kernel",
"0.4.3", # 保持不变
"Please reinstall the latest version with `pip install sglang-kernel --force-reinstall`",
)
作者 mmangkad 在评论中指出唯一失败的测试(Gemma 4 26B MTP GSM8K)已在主分支上禁用,与本 PR 无关。
结论:确认 CI 失败不是由本 PR 引入,可以忽略。 · 已解决
属于小版本依赖升级,兼容性风险低。但需注意新版本可能引入行为变化,CI 已覆盖大部分场景。
影响所有使用 FlashInfer attention backend 和 CUTLASS DSL 的用户,需要重新安装或构建镜像。不涉及 API 变更。
当前没有检测到明确关联的 Issue 链接,后续同步到相关引用后会出现在这里。
参与讨论