为扩散测试添加URL下载重试和超时错误处理,提高CI稳定性。
建议阅读者关注重试机制的设计和异常处理细节,注意review中提到的潜在问题,对于类似CI改进项目,此PR展示了如何通过代码优化提升测试稳定性。
SGLang is a high-performance serving framework for large language models and multimodal models.
为扩散测试添加URL下载重试和超时错误处理,提高CI稳定性。
建议阅读者关注重试机制的设计和异常处理细节,注意review中提到的潜在问题,对于类似CI改进项目,此PR展示了如何通过代码优化提升测试稳定性。
为 run_eval 添加延迟和吞吐量指标,支持 CI 回归检查。
建议对 CI 工程师和测试开发者精读,以了解新的 metrics 计算方式;对于其他开发者,快速浏览即可。
原始 PR · 作者 alphabetc1 · 合并时间 2026-04-01 09:31
为diffusion服务器添加uvicorn访问日志前缀排除功能,减少噪声日志。
该PR值得快速浏览,关注日志过滤器的实现细节(如`_UvicornAccessLogFilter`类中从`record.args`提取路径的方法),但无需深入分析,因变更较小且直白。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-01 09:29
修复spec_step=1时CUDA图支持判断错误,确保草稿扩展使用正确后端。
该PR值得精读,展示了草稿扩展中后端选择与CUDA图支持的耦合关系。关注点:1. draft_attn_backend与draft_extend_attn_backend的职责分离;2. HIP代码块未修复的潜在问题;3. 后端类名重构的上下文。
添加测试网络超时和动态并行度配置以优化 CI 稳定性。
对于技术管理者和工程师,此 PR 值得关注以了解 CI 基础设施的优化模式,特别是超时设置和并行度配置;对于核心开发者,无需深究代码细节,但可借鉴类似维护实践。
原始 PR · 作者 CatherineSue · 合并时间 2026-04-01 09:22
修复gRPC服务器导入错误链,避免真实异常被屏蔽,提升调试体验。
该PR变更简单直接,适合快速review;对于理解Python异常链和错误处理最佳实践有参考价值,值得关注错误消息设计的清晰性。
重构NVFP4 GEMM内核以优化SM120性能,新增CUTLASS后端选项。
此PR值得精读,尤其对于参与量化或内核开发的工程师。建议关注: 1. SM120内核设计中的tile size选择和配置结构(如 `sm120_fp4_config_small_m`),以学习架构特定优化方法。 2. workspace分配从CUDA切换到PyTorch的决策过程,了解多流安全性的考量。 3. 新后端集成模式,作为未来添加其他后端(如cuDNN)的参考模板。
优化 fused_qknorm_rope JIT 内核,通过减少冗余计算和降低寄存器压力提升性能。
建议工程师精读 `fused_qknorm_rope.cuh` 中的内核优化逻辑,特别是循环重构和模板参数设计,关注寄存器优化技巧和编译时分支消除,这些对 CUDA 内核性能调优有借鉴价值。同时,可参考基准测试扩展方法以验证实际工作负载性能。
参与讨论