#24089 [Feat][LMCache] Support LMCache mp mode
原始 PR · 作者 Shaoting-Feng · 合并时间 2026-05-28 10:15
支持LMCache多进程模式,解耦缓存进程与推理进程
值得精读,尤其是两阶段加载设计、模式枚举抽象和基于YAML的配置方式。对于理解SGLang缓存层扩展机制和有状态的推理系统解耦有借鉴意义。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 Shaoting-Feng · 合并时间 2026-05-28 10:15
支持LMCache多进程模式,解耦缓存进程与推理进程
值得精读,尤其是两阶段加载设计、模式枚举抽象和基于YAML的配置方式。对于理解SGLang缓存层扩展机制和有状态的推理系统解耦有借鉴意义。
移除 H20 设备对 FlashInfer AllReduce Fusion 的限制
可直接合并。这是一次典型的技术债务清理,风险低且收益明确。其他硬件平台的维护者可以参考此做法:在条件允许时及时移除临时的硬件限制。
将 MHC prenorm 内核接入通用 DeepGEMM wrapper/warmup 路径
对于 DeepSeek V4 和 DeepGEMM wrapper 的维护者值得精读,了解如何将新内核类型接入统一预热框架。建议后续追踪吞吐下降原因,并考虑是否调整为与主基线一致的预热策略。
修复 NemotronH 权重加载测试因配置键缺失而失败
合并即可,无需精读。
原始 PR · 作者 netanel-haber · 合并时间 2026-05-28 07:12
支持 NemotronHPuzzleForCausalLM 模型架构
值得精读,特别是配置类如何支持逐层定制的设计模式,以及 MTP 集成方案。建议关注其中的 assert 与 ValueError 的取舍,在后续类似场景下优先使用异常。建议在合并后补充单元测试。
原始 PR · 作者 alisonshao · 合并时间 2026-05-28 07:06
修复 CI 报告排队时间低估并添加作业状态列
该 PR 值得精读,特别是 `classify_job` 函数的状态处理逻辑和测试设计,是处理 GitHub API 实际陷阱的典型案例。同时 review 中的 Markdown 转义建议可考虑后续跟进。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-05-28 07:04
更新 Kimi K25 部署指南中的启动命令
建议快速合并,无需深度精读。主要是文档维护性质,确保命令与最新模型版本和硬件支持对齐。
修复 Diffusion LoRA 精度与一致性验证
该 PR 修复了 diffusion LoRA 多个边界情况,并加强了测试覆盖,值得 review 和 merge。特别关注 FP32 合并默认值变更和 lora_alpha 加载的设计决策。
参与讨论