修复 mooncake store 布局名拼写错误
此 PR 为简单拼写修正,无需深入审查,可直接合并。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 mooncake store 布局名拼写错误
此 PR 为简单拼写修正,无需深入审查,可直接合并。
原始 PR · 作者 ZeyuanChen2000 · 合并时间 2026-04-29 12:01
NPU 上 Baichuan2-13B-Chat 因 rope_theta 缺失崩溃
低风险快速修复,值得核验。建议作者考虑追加单元测试,覆盖 rope_theta 缺失的场景,防止将来回归。
为 Nemotron Omni V3 模型添加别名支持
值得快速合并。这是一个标准的模型别名注册 PR,结构清晰,风险低。建议未来为 Nemotron Omni V3 添加独立的测试用例以验证加载和推理。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-04-29 10:54
为 Eagle 推测解码引入 spec_hidden_size,修复 hidden size 不匹配
推荐合并并部署。该 PR 改动量小但影响面广,修复了关键的维度不匹配问题,且经过多场景 CI 验证。值得关注的设计决策是将 `hc_mult` 从模型配置中显式读取,而不是硬编码扩展系数,保持了灵活性和可扩展性。
原始 PR · 作者 merrymercy · 合并时间 2026-04-29 10:52
为 Tokenizer 指标添加 engine_type 标签
值得精读,展示了如何通过提取公共方法消除重复代码并保持配置一致性,适合作为代码复用和可观测性增强的参考。
原始 PR · 作者 merrymercy · 合并时间 2026-04-29 10:51
更新贡献指南,增加编码规范
可以直接合并,无需精读。
原始 PR · 作者 rahulvijayaraghavan · 合并时间 2026-04-29 10:44
XPU fused_experts 支持 router weight on input
值得阅读,特别是关注 MoE 架构与后端适配的工程权衡。建议后续追踪 fused_experts 内核内对 apply_router_weight_on_input 的原生支持进展。
原始 PR · 作者 ccullen-cert · 合并时间 2026-04-29 10:39
修复路由模板渲染 SSTI 安全漏洞
建议合并。这是一个典型的安全修复,变更小而精准,无需额外测试。开发者可关注 Qwen3 reranker 相关功能是否正常工作。
参与讨论