#25340 fix: strip "[asctime]" prefix when parsing JSON log lines in nightly tests
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-15 11:17
修复因日志前缀变更导致的夜间测试失败
值得合入以修复 CI 稳定性;可精读解析逻辑的健壮性改进,这种 `find` + try/except 模式适合作为测试中解析带前缀日志的标准模式。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-15 11:17
修复因日志前缀变更导致的夜间测试失败
值得合入以修复 CI 稳定性;可精读解析逻辑的健壮性改进,这种 `find` + try/except 模式适合作为测试中解析带前缀日志的标准模式。
将26个未使用的测试文件移至 test/manual 目录
该 PR 属于代码库清理,逻辑简单,无需深入审查。适合快速合并。若关注测试目录结构,可了解 `test/manual/` 的用途。
支持 Qwen3.5 NVFP4 MTP 与 DeepEP 低延迟模式
此 PR 涉及 DeepEP 低延迟模式与 MTP 的集成,以及 GPU 架构感知的 verify 内核选择,设计取舍值得关注。建议负责 DeepEP 和推测解码的工程师精读,特别是 `forward_unquantized_deepep_ll` 的 fallback 实现和 bf16_dispatch 的配置传播。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-15 10:11
优化 Kimi 等 tiktoken 衍生 tokenizer 的 TTFT
建议精读该 PR,尤其是其中条件分支的设计思路:通过检测 `is_fast` 属性,在慢速 tokenizer 上切换为 `.encode()` 循环,同时保留 fast tokenizer 的批量优化。这是一个典型的最小改动、最大收益的案例,值得在类似性能优化中参考。
优化 MLA KV 缓存写入,性能提升最高 12 倍
值得精读。该 PR 展示了 GPU 内核优化的完整工程实践:从瓶颈识别、多种实现方案对比、自动调度到测试和基准覆盖,并处理了 TMA 硬件特有的正确性细节。可学习其设计决策和阈值调优方法。
临时跳过 CI 中断的测试
该 PR 是临时性 CI 维护变更,技术含量低。建议合并以保持 CI 绿色,但应尽快跟进根本原因修复。
原始 PR · 作者 sglang-bot · 合并时间 2026-05-15 08:53
将 sgl-kernel 版本升至 0.4.2.post2
该 PR 为常规维护操作,无需深入审查。可快速合并。
原始 PR · 作者 unseenmars · 合并时间 2026-05-15 07:46
添加 canonical URL 修复 Google 索引
建议快速合并。该 PR 是典型的 SEO 修复,改动小且无副作用,能显著提升文档的可发现性。值得关注的点:如何通过配置层面的小改动解决多域名部署的 SEO 问题。
参与讨论