Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-04-20 12:25 同步状态:空闲 下次计划:2026-04-20 13:25
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

已合并 977 · 已分析 975
更多筛选
2026-04-04

#21913 fix: mistral embedding regression fix

原始 PR · 作者 dougyster · 合并时间 2026-04-04 15:11

缺陷修复 重要性 6.00 洞察度 5.00

修复 Mistral 嵌入模型因 transformers v5 升级导致的余弦相似度回归问题。

该 PR 值得精读,尤其是对于处理分词器兼容性和 transformers 版本升级问题的工程师。关注点:1) 理解快速分词器与慢速分词器在 add_eos_token 行为上的历史差异;2) 学习如何通过二分法定位回归问题;3) 掌握最小化修复策略,确保与上游参考实现保持一致。

#18762 [diffusion] Diffusion norm fusion for z-image

原始 PR · 作者 qimcis · 合并时间 2026-04-04 14:01

性能优化 重要性 6.00 洞察度 6.00

通过JIT内核融合RMSNorm和tanh门控,优化Z-Image扩散模型推理速度。

建议阅读者精读此PR,重点关注JIT内核设计细节、融合优化策略以及如何平衡性能与兼容性。特别值得学习CuTeDSL使用和扩散模型层的集成方式。

#22076 Tiny fix step3.5-flash launch crash

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-04 13:25

缺陷修复 重要性 3.00 洞察度 2.00

修复 step3.5-flash 模型启动崩溃问题,移除未使用的 padding_idx 属性。

该 PR 变更简单直接,适合快速浏览以了解特定模型配置问题的修复方式。对于维护 step3.5 模型相关代码的工程师,值得关注这一配置差异的处理模式。

#21280 [RL] Support mxfp8 DeepSeek V3

原始 PR · 作者 zianglih · 合并时间 2026-04-04 12:57

功能 重要性 6.00 洞察度 7.00

支持 DeepSeek V3 模型在 Blackwell 架构上的 MXFP8 推理优化,修复 BF16 MoE 精度问题。

建议技术管理者关注 PR 中的设计权衡,如保持 bf16 以避免重新量化,这反映了精度与性能的平衡。工程师可精读 `flashinfer_trtllm.py` 的优化部分,学习缓存策略对性能的提升。同时,注意 review 中未解决的架构检查问题,未来需补充相关验证。

#21735 fix ut test_moe

原始 PR · 作者 huaiyuzh · 合并时间 2026-04-04 12:57

缺陷修复 重要性 4.00 洞察度 3.00

修复 XPU 环境下 DeepSeek OCR 测试的内存泄漏和配置问题,提升 CI 稳定性。

对于负责 XPU 测试或 CI 维护的工程师,此 PR 值得精读,特别是 _cleanup_xpu_memory 实现和内存配置调整,以学习资源密集型测试的优化策略。设计决策中测试隔离和内存管理值得关注。

功能 重要性 6.00 洞察度 5.00

添加服务器标志强制流式响应包含使用信息,便于服务器端监控。

建议工程师精读此PR,重点关注should_include_usage函数的设计决策,它统一了流式使用信息处理逻辑,避免了代码重复;同时,参数命名的演变体现了设计权衡,值得学习。对于涉及服务器配置或openai服务开发的人员,此PR提供了实用的监控功能。

缺陷修复 重要性 6.00 洞察度 5.00

修复NVFP4量化扩散模型的权重缩放交织并优化大M核配置。

建议扩散模型和量化模块的工程师精读此PR,关注权重swizzle修复的实现细节(`modelopt_quant.py`中的reshape/permute操作)和核配置优化的设计决策(`nvfp4_scaled_mm_sm100.cuh`中的集群调整),以理解NVFP4量化在Blackwell GPU上的最佳实践和性能调优技巧。

#22083 dp: add profile req hook

原始 PR · 作者 happierpig · 合并时间 2026-04-04 11:47

缺陷修复 重要性 5.00 洞察度 4.00

修复DP注意力模式下ProfileReq分发缺失导致的死锁问题。

该PR值得快速浏览,以了解DP注意力模式下控制消息分发的设计模式。关注点:1) 分发器如何映射消息类型到处理方法。2) send_to_all_workers与send_control_message的差异。3) 通信器扇出预期与分发策略的匹配。

参与讨论