Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-23
性能优化 重要性 5.79 洞察度 3.00

跳过 trtllm_mla 中不必要的 init_mha_chunk_metadata

该 PR 是一次轻量级性能优化,实现清晰且安全,建议精读理解 trtllm_mla 的 fallback 机制;代码风格和逻辑可直接复用于其他类似的元数据初始化方法。

#23351 Support piecewise CUDA graph with NSA

原始 PR · 作者 nvjullin · 合并时间 2026-05-23 05:39

功能 重要性 8.85 洞察度 6.00

为 GLM-5/DSV3.2 添加 NSA 注意力 PCG 支持

值得精读。核心设计(`register_split_op` + `register_custom_op` 拆分 NSA 索引器)是 PCG 支持 DSA 模型的关键模式,可以推广到其他不符合 PCG 约束的算子。同时关注后续 PR #26718 对 guard 的改动,以及是否有更通用的 NSA indexer 抽象。

性能优化 重要性 6.06 洞察度 6.00

移除 DeepSeekV3 trtllm MoE 冗余 FP32 转换

建议阅读 PR body 中的设计分析,了解作者为何分阶段清理 MoE 路径。该 PR 展示了如何基于版本依赖安全移除冗余操作,并为后续重构留下明确标记,值得 ML 工程团队借鉴。合并者 Qiaolin-Yu 和 reviewer b8zhong 均已批准。

缺陷修复 重要性 6.77 洞察度 5.00

修复 RadixLinearAttention BCG 支持,消除静默错误

推荐合入,该 PR 以极小的改动修复了一个严重影响模型输出正确性的 bug,且提供了充分的基准测试数据。值得精读的地方在于 `eager_on_graph` 装饰器的使用模式,这是 BCG 框架中确保某些操作不在 CUDA Graph 内被捕获的标准做法。

缺陷修复 重要性 6.61 洞察度 6.00

FutureMap 增加 consume 前值非负断言

值得精读。该 PR 展示了在 GPU 异步执行环境中使用编译断言进行不变量检查的实践,对理解 FutureMap 的语义契约和 CI 诊断能力有帮助。

功能 重要性 7.85 洞察度 6.00

在 /server_info 暴露 KV-event publisher 描述符,支持路由器自发现

值得精读。设计决策清晰:将 introspection 方法放在配置对象自身,使用懒加载避免循环依赖,安全返回 null 而非异常。review 中的绑定一致性问题提醒了跨文件契约验证的重要性。测试驱动方式(绕过 HTTP 层直接调用 handler)也值得参考。

性能优化 重要性 9.18 洞察度 7.00

Req token-id 存储迁移至 array.array('q') 优化长 prompt 性能

建议 PR 评审者仔细阅读,尤其是 `flatten_arrays_to_int64_tensor` 的实现和 `Req` 字段迁移的处理方式,可为类似数据类型迁移提供参考。

参与讨论