#23606 [HiSparse & PD] Support hisparse memory pool host page > 1
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-05-19 16:29
支持HiSparse主机池页大小大于1
建议合并并关注性能基准测试结果,特别是 PD 模式下的吞吐量。设计上的 Mixin 抽象值得后续参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 huangtingwei9988 · 合并时间 2026-05-19 16:29
支持HiSparse主机池页大小大于1
建议合并并关注性能基准测试结果,特别是 PD 模式下的吞吐量。设计上的 Mixin 抽象值得后续参考。
统一镜像仓库并重构NPU文档结构,提升易用性
建议所有 NPU 用户和开发者阅读更新后的文档,特别是快速入门和示例部分。文档中新增的磁盘空间警告、FAQ 和测试指引值得注意,有助于避免常见陷阱。对于文档维护者,此 PR 展示了使用 Tabs、Tip、Warning 等 MDX 组件结构化文档的最佳实践。
支持 FlashInfer per-token NVFP4 MoE 激活量化
建议合入。实现简洁,上游 FlashInfer 已合并相应 kernel。建议在正式版本中开启默认测试覆盖,并关注 CI 时间。
原始 PR · 作者 bluecoffee8 · 合并时间 2026-05-19 15:23
修复 JIT 核函数模板编译错误
无需精读。属于典型的模板语法修复,可作为 C++ 模板编程的参考案例。
修复 Blackwell GPU 上 DeepSeek-V4-Pro NaN 问题
此 PR 为关键 bugfix,建议尽快合入。值得关注的是作者对问题的深入诊断(外部 gist 分析),体现了底层数值问题的调试方法。
原始 PR · 作者 yctseng0211 · 合并时间 2026-05-19 13:47
修复 Kimi-K2.5 MXFP4 测试因模型版本过旧失败
建议合并。该修复是同行 PR #25390 的配套变更,确保 AMD 路径的 Kimi-K2.5 测试不会因模型版本过旧而失败。
引入 Rust gRPC 服务器 crate,原生服务器第一阶段
值得精读,特别是对 Rust ↔ Python 桥接模式感兴趣的人员。设计决策如 `RequestAbortGuard` Drop 语义、`pyerr_to_status` 分类、`resolve_max_message_size` 环境变量覆盖,都是良好的工程实践。未解决的 meta_info 序列化和认证问题应在后续 PR 中优先修复。
原始 PR · 作者 TallMessiWu · 合并时间 2026-05-19 12:46
为 Wan2.2 Diffusion 添加 Ascend NPU MXFP4 量化支持
建议精读该 PR,它展示了如何在 diffusion 子系统中集成新的量化方法,代码模块化良好(在线 vs 离线分离),且 review 中涉及的性能优化和设计决策值得借鉴。需特别关注在线量化路径的实验性标注以及加载器逻辑对 modelslim 显式标志的改动。
参与讨论