#21130 Add ut guide to test skills
作者 ispobock · 合并时间 2026-03-22 20:55
更新 SGLang 测试编写指南,新增单元测试专用指导和模板。
该 PR 值得测试开发者和文档维护者精读,以了解 SGLang 测试框架的最新最佳实践。关注点包括单元测试与集成测试的分离、CI 套件选择规则,以及 review 中提到的文档对齐问题。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 ispobock · 合并时间 2026-03-22 20:55
更新 SGLang 测试编写指南,新增单元测试专用指导和模板。
该 PR 值得测试开发者和文档维护者精读,以了解 SGLang 测试框架的最新最佳实践。关注点包括单元测试与集成测试的分离、CI 套件选择规则,以及 review 中提到的文档对齐问题。
作者 b8zhong · 合并时间 2026-03-22 17:55
优化SM120 FP8 GEMM kernel,通过pingpong schedule提升小M性能。
建议技术管理者关注此PR,因为它展示了性能优化的实际收益和硬件特定调优。工程师值得精读代码,学习基于运行时条件的schedule选择策略和CUTLASS集成最佳实践。
作者 BBuf · 合并时间 2026-03-22 16:39
添加SGLang CUDA崩溃API日志记录功能,用于调试LLM和扩散内核调用边界。
建议技术管理者和工程师精读本PR,重点关注以下方面: - **设计决策**:`python/sglang/kernel_api_logging.py`中的装饰器实现,如何集成环境变量控制和dump生成,值得学习可配置调试系统设计。 - **代码优化**:自动推断op名称的机制,减少手动维护,展示Python装饰器高级用法。 - **review洞察**:讨论中的命名约定和类型友好性改进,提供了软件工程最佳实践案例。
作者 Shunkangz · 合并时间 2026-03-22 16:27
为Qwen3-MoE模型添加预填充阶段的上下文并行支持,显著降低长序列推理延迟。
建议技术管理者和工程师精读此PR,重点关注CP设计决策、通信优化和性能权衡。对于从事并行推理开发的团队,该PR提供了上下文并行的实现案例,值得借鉴其模块化设计(如`cp_utils.py`分离工具逻辑)和review中的技术讨论(如allreduce组选择)。同时,注意未解决的风险(如通信开销)和后续重构任务。
作者 kpham-sgl · 合并时间 2026-03-22 15:55
重构Ngram类架构,提取共享代码并支持match_type参数,为可插拔缓存后端铺路。
该PR值得精读,特别是关注设计决策如避免模板而采用包装器模式,以及如何提取共享代码以支持可插拔后端。对于从事speculative decoding或缓存系统开发的工程师,建议仔细审查重构后的类结构、测试覆盖和参数传递逻辑。
作者 hnyls2002 · 合并时间 2026-03-22 15:45
放宽对 fork PRs 的 /rerun-ut 命令权限,允许有写权限的用户触发单元测试重运行。
这是一个小但重要的 CI 基础设施变更,对于负责 CI 流程的工程师值得快速浏览,以理解权限管理策略。关注 `handle_rerun_ut` 函数中的安全检查和撤销多余代码的决策,同时考虑采纳 review 中的代码风格建议以提升可维护性。
作者 BBuf · 合并时间 2026-03-22 15:38
修复Z-Image模型在torch.compile下的RMSNorm回退问题,显著提升推理性能。
建议工程师精读此PR,重点关注`layernorm.py`中fp32路径的条件分支设计,以及`rmsnorm_onepass.py`中自定义操作注册的用法,这些是优化torch.compile下Triton内核稳定性的有效模式。对于管理决策,可视为针对特定模型的高回报性能修复。
作者 hnyls2002 · 合并时间 2026-03-22 15:32
允许仓库写权限用户在任何PR上使用/rerun-ut命令。
PR变更较小,逻辑清晰,值得快速review以确认权限检查逻辑和错误处理的正确性。关注GitHub API集成部分,确保在API调用失败时有适当的降级或日志记录。
参与讨论