优化 LTX2 分裂 RoPE Triton 内核,合并多个 head 的 launch grid
该 PR 值得精读,尤其对需要优化 Triton kernel 以利用 GPU 的开发者。核心设计决策是使用程序块合并多个 head,这是一种常见的 GPU 优化模式(减少 program 数量,增加每个 program 的工作量以更好地隐藏延迟)。自适应 warp 数量的选择也值得参考。建议在合并到主分支前,确认其他 GPU 架构(如 A100)的基准测试结果。
SGLang is a high-performance serving framework for large language models and multimodal models.
优化 LTX2 分裂 RoPE Triton 内核,合并多个 head 的 launch grid
该 PR 值得精读,尤其对需要优化 Triton kernel 以利用 GPU 的开发者。核心设计决策是使用程序块合并多个 head,这是一种常见的 GPU 优化模式(减少 program 数量,增加每个 program 的工作量以更好地隐藏延迟)。自适应 warp 数量的选择也值得参考。建议在合并到主分支前,确认其他 GPU 架构(如 A100)的基准测试结果。
原始 PR · 作者 whybeyoung · 合并时间 2026-05-16 19:49
修复 Qwen3-Next 分离部署中 KV pool 缺少 end_layer 属性导致的崩溃
此 PR 是必须的快速修复,改动虽小但影响关键路径。建议阅读以了解类似模式的使用(getattr 防御性访问),未来在定义 KV pool 接口时注意统一属性契约。
PR states 工作流支持 workflow_dispatch 刷新
该 PR 是纯基础设施改进,逻辑清晰、改动适度,值得合并。建议后续 PR 处理 review 中未解决的改进建议(默认分支动态获取、覆盖 `handle_rerun_test`),它们可进一步提升健壮性和覆盖率。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-16 18:30
避免子类继承时重复初始化父类 workspace buffer
建议尽快合入,以减少不必要的显存占用。虽然缺少测试,但改动直观且已通过现有 CI。未来若扩展新的 MLA 后端,需注意继承时如何配置此参数。
将推测解码参数处理抽离为独立 hook 文件
建议精读。该 PR 展示了如何安全地进行大规模代码移动与拆分,引入 `DeprecatedAliasStoreAction` 处理参数弃用平滑过渡,以及通过 AST 验证保证重构等价性的实践,是模块化重构的优秀范例。
跳过 DP attention 空闲 rank 的空区间存储
建议尽快合入,属于明确的小 bugfix,补全了边界情况处理,确保与相关方法的一致性。
修复扩散 nightly CI 的端口竞争、OOM 和失败检测问题
值得精读,尤其是端口去重和 OOM 检测模式的设计,可为其他 CI 模块参考。
更新 release 分支创建脚本使其支持幂等
值得合并,改动清晰且具有实际价值:避免了手动删除分支才能重跑的问题。但建议在 Workflow 注释或文档中明确说明幂等行为。
参与讨论