#21349 [CI] Reduce session correctness test to 30 turns to fix flakiness
作者 hnyls2002 · 合并时间 2026-03-25 09:56
将流式会话正确性测试的轮数从150减少到30以解决flakiness。
建议快速浏览此PR以理解测试flakiness的缓解策略,但无需深入分析代码逻辑。对于涉及GPU非确定性的测试设计有参考价值,可关注如何在测试中平衡覆盖与稳定性。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 hnyls2002 · 合并时间 2026-03-25 09:56
将流式会话正确性测试的轮数从150减少到30以解决flakiness。
建议快速浏览此PR以理解测试flakiness的缓解策略,但无需深入分析代码逻辑。对于涉及GPU非确定性的测试设计有参考价值,可关注如何在测试中平衡覆盖与稳定性。
作者 yuan-luo · 合并时间 2026-03-25 09:47
新增CuTeDSL KDA解码内核,为KDA架构模型提供约1.05x性能提升。
建议技术管理者和工程师精读此PR,重点关注: 1. 内核实现文件`cutedsl_kda.py`中的设计决策,如K维度门控处理和VK布局适配,以理解性能优化技巧。 2. review中的线程安全讨论和布局统一权衡,这些揭示了长期架构演进方向。 3. 基准测试脚本`bench_cutedsl_kda_decode.py`,学习正确性验证和性能测量方法。
作者 DarkSharpness · 合并时间 2026-03-25 09:10
清理JIT内核API,移除冗余调试包装器并统一日志装饰器,优化调试体验。
建议技术管理者关注此PR作为代码清理的范例,特别是`kernel_api_logging.py`中的设计决策(如双重包装防护和性能优化)。工程师可精读该文件以理解调试装饰器的新实现,并检查相关JIT kernel文件以确保兼容性。此PR展示了如何统一调试基础设施并处理边缘案例。
作者 ykcai-daniel · 合并时间 2026-03-25 08:28
为Flux.2扩散模型添加NVFP4量化支持,实现权重加载和推理后端集成。
此PR值得精读,特别是对于关注量化技术或扩散模型集成的工程师。关键设计决策包括:参数映射规则以支持复杂checkpoint格式、量化配置的动态构建方式、以及后端选择策略(如优先使用comfy-kitchen)。建议关注`modelopt_quant.py`中的量化实现细节和`fsdp_load.py`中的dtype处理逻辑,以理解系统如何优雅处理混合精度权重。
作者 hnyls2002 · 合并时间 2026-03-25 08:04
在CI测试运行中默认启用failfast标志,优化测试执行时间并清理不兼容的自定义参数解析。
对于负责CI或测试的工程师,值得快速浏览以了解failfast默认启用机制和对测试文件的要求;对于普通开发者,关注文档更新即可,无需深究代码细节。
作者 hnyls2002 · 合并时间 2026-03-25 07:58
添加跨作业快速失败健康检查,优化CI资源使用。
该PR值得精读,特别是`.github/actions/check-stage-health/action.yml`文件,展示了CI优化中的设计权衡,如级联过滤和计划运行跳过。工程师可学习如何有效管理CI流水线以减少浪费,关注实现细节以避免类似风险。
作者 Fridge003 · 合并时间 2026-03-25 07:38
修复FP4 MoE内核导入错误,确保CI测试通过。
此PR为小型bugfix,工程师可快速检查导入逻辑变更,无需深度精读;但可关注动态导入对性能的潜在影响。
作者 hnyls2002 · 合并时间 2026-03-25 07:27
移除 CI 总结中的测试分区分配步骤,减少噪声。
这是一个简单的 CI 清理 PR,变更直白,无需精读。值得关注的是团队对 CI 输出噪声的管理决策,可作为类似清理的参考。
参与讨论