Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-18 21:23 同步状态:空闲 下次计划:2026-04-18 22:23

PR 列表

已合并 957 · 已分析 957
更多筛选
2026-03-23
缺陷修复 重要性 7.00 洞察度 5.00

临时修复 FlashInfer 统一传输在 GB 平台导致数据损坏的问题。

该 PR 值得精读,尤其关注上下文管理器设计和平台检测逻辑,展示了临时工作区的优雅实现方式。建议工程师学习其异常处理和环境集成的最佳实践,同时注意临时方案的移除时间点。

缺陷修复 重要性 6.00 洞察度 6.00

修复启用指标时非流式请求中止失效的bug,通过修补中间件保持ASGI receive传递。

推荐精读此PR,特别是`_PureASGIDispatch`的设计,以了解如何处理ASGI中间件的receive传递问题,并关注测试策略从集成到单元的演变,体现了优化测试效率的实践。

性能优化 重要性 5.00 洞察度 5.00

通过padding max-num-requests避免CUDA graph捕获中被过滤,提升性能覆盖范围。

建议精读以理解CUDA graph捕获中的padding策略和性能优化技巧,重点关注get_batch_sizes_to_capture函数的改动,对于涉及图形捕获的开发者有参考价值。

功能 重要性 6.00 洞察度 5.00

集成 FlashInfer v0.6.6 的 bf16 routed moe 支持,完善 MXFP8 RL 训练后端。

建议精读此 PR,关注量化后端集成设计(如 `flashinfer_trtllm.py` 中的路由逻辑)和权重形状恢复机制(如 `unquant.py` 中的方法),这些决策对处理混合精度权重更新有借鉴价值。

2026-03-22
重构 重要性 6.00 洞察度 4.00

清理扩散Triton内核,移除死代码并现代化自定义操作注册。

建议技术管理者和工程师精读本PR,重点关注norm.py中自定义操作注册的现代化设计决策,以及scale_shift.py中死代码移除的合理性评估。对于review中未解决的代码重复问题,可考虑后续PR进行重构。

参与讨论