Prhub
← 返回仓库列表

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-19 01:50 同步状态:空闲 下次计划:2026-04-19 02:50

PR 列表

已合并 960 · 已分析 960
更多筛选
2026-03-25
测试 重要性 3.00 洞察度 3.00

将流式会话正确性测试的轮数从150减少到30以解决flakiness。

建议快速浏览此PR以理解测试flakiness的缓解策略,但无需深入分析代码逻辑。对于涉及GPU非确定性的测试设计有参考价值,可关注如何在测试中平衡覆盖与稳定性。

#21203 [KDA] Support CuTeDSL KDA decode kernel

作者 yuan-luo · 合并时间 2026-03-25 09:47

功能 重要性 6.00 洞察度 6.00

新增CuTeDSL KDA解码内核,为KDA架构模型提供约1.05x性能提升。

建议技术管理者和工程师精读此PR,重点关注: 1. 内核实现文件`cutedsl_kda.py`中的设计决策,如K维度门控处理和VK布局适配,以理解性能优化技巧。 2. review中的线程安全讨论和布局统一权衡,这些揭示了长期架构演进方向。 3. 基准测试脚本`bench_cutedsl_kda_decode.py`,学习正确性验证和性能测量方法。

#21325 [misc] clean up kernel API

作者 DarkSharpness · 合并时间 2026-03-25 09:10

重构 重要性 5.00 洞察度 5.00

清理JIT内核API,移除冗余调试包装器并统一日志装饰器,优化调试体验。

建议技术管理者关注此PR作为代码清理的范例,特别是`kernel_api_logging.py`中的设计决策(如双重包装防护和性能优化)。工程师可精读该文件以理解调试装饰器的新实现,并检查相关JIT kernel文件以确保兼容性。此PR展示了如何统一调试基础设施并处理边缘案例。

#20137 [diffusion] Support nvfp4 for Flux.2

作者 ykcai-daniel · 合并时间 2026-03-25 08:28

功能 重要性 7.00 洞察度 7.00

为Flux.2扩散模型添加NVFP4量化支持,实现权重加载和推理后端集成。

此PR值得精读,特别是对于关注量化技术或扩散模型集成的工程师。关键设计决策包括:参数映射规则以支持复杂checkpoint格式、量化配置的动态构建方式、以及后端选择策略(如优先使用comfy-kitchen)。建议关注`modelopt_quant.py`中的量化实现细节和`fsdp_load.py`中的dtype处理逻辑,以理解系统如何优雅处理混合精度权重。

基础设施 重要性 4.00 洞察度 3.00

在CI测试运行中默认启用failfast标志,优化测试执行时间并清理不兼容的自定义参数解析。

对于负责CI或测试的工程师,值得快速浏览以了解failfast默认启用机制和对测试文件的要求;对于普通开发者,关注文档更新即可,无需深究代码细节。

基础设施 重要性 6.00 洞察度 5.00

添加跨作业快速失败健康检查,优化CI资源使用。

该PR值得精读,特别是`.github/actions/check-stage-health/action.yml`文件,展示了CI优化中的设计权衡,如级联过滤和计划运行跳过。工程师可学习如何有效管理CI流水线以减少浪费,关注实现细节以避免类似风险。

参与讨论