Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11
后台正在同步并分析最近 PR,页面会自动刷新并逐步显示最新结果。

PR 列表

更多筛选
2026-05-28

#24089 [Feat][LMCache] Support LMCache mp mode

原始 PR · 作者 Shaoting-Feng · 合并时间 2026-05-28 10:15

功能 重要性 8.17 洞察度 6.00

支持LMCache多进程模式,解耦缓存进程与推理进程

值得精读,尤其是两阶段加载设计、模式枚举抽象和基于YAML的配置方式。对于理解SGLang缓存层扩展机制和有状态的推理系统解耦有借鉴意义。

缺陷修复 重要性 4.84 洞察度 2.00

移除 H20 设备对 FlashInfer AllReduce Fusion 的限制

可直接合并。这是一次典型的技术债务清理,风险低且收益明确。其他硬件平台的维护者可以参考此做法:在条件允许时及时移除临时的硬件限制。

重构 重要性 8.46 洞察度 5.00

将 MHC prenorm 内核接入通用 DeepGEMM wrapper/warmup 路径

对于 DeepSeek V4 和 DeepGEMM wrapper 的维护者值得精读,了解如何将新内核类型接入统一预热框架。建议后续追踪吞吐下降原因,并考虑是否调整为与主基线一致的预热策略。

#24429 Support NemotronHPuzzleForCausalLM

原始 PR · 作者 netanel-haber · 合并时间 2026-05-28 07:12

功能 重要性 7.88 洞察度 6.00

支持 NemotronHPuzzleForCausalLM 模型架构

值得精读,特别是配置类如何支持逐层定制的设计模式,以及 MTP 集成方案。建议关注其中的 assert 与 ValueError 的取舍,在后续类似场景下优先使用异常。建议在合并后补充单元测试。

#26511 Update kimi k25 launch command in cookbook

原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-28 07:04

文档 重要性 4.54 洞察度 1.00

更新 Kimi K25 部署指南中的启动命令

建议快速合并,无需深度精读。主要是文档维护性质,确保命令与最新模型版本和硬件支持对齐。

缺陷修复 重要性 6.97 洞察度 4.00

修复 Diffusion LoRA 精度与一致性验证

该 PR 修复了 diffusion LoRA 多个边界情况,并加强了测试覆盖,值得 review 和 merge。特别关注 FP32 合并默认值变更和 lora_alpha 加载的设计决策。

参与讨论