#21100 [NPU] Update quantization&CI documentation
作者 OrangeRedeng · 合并时间 2026-03-29 02:42
更新Ascend NPU的量化和CI文档,优化用户指南和开发流程。
建议技术管理者关注此PR以了解Ascend NPU平台的最新支持情况,工程师可参考更新后的文档进行量化相关开发。值得精读`ascend_npu_quantization.md`以获取详细支持矩阵,并注意review中讨论的文档优化点。
SGLang is a high-performance serving framework for large language models and multimodal models.
作者 OrangeRedeng · 合并时间 2026-03-29 02:42
更新Ascend NPU的量化和CI文档,优化用户指南和开发流程。
建议技术管理者关注此PR以了解Ascend NPU平台的最新支持情况,工程师可参考更新后的文档进行量化相关开发。值得精读`ascend_npu_quantization.md`以获取详细支持矩阵,并注意review中讨论的文档优化点。
作者 JustinTong0323 · 合并时间 2026-03-29 01:46
为Whisper模型启用CUDA图支持和时间戳功能,实现36%吞吐量提升。
该PR值得精读,特别是对于理解如何在编码器-解码器模型中集成RadixAttention以启用CUDA图支持,以及时间戳功能的实现细节。建议关注`whisper.py`中的交叉注意力替换和`cuda_graph_runner.py`中的捕获修复,这些设计决策对类似优化有参考价值。
作者 yhyang201 · 合并时间 2026-03-28 23:11
优化共享内存指针类以支持多次pickle并推迟解包,显著降低多图像VLM推理的TTFT。
建议技术管理者和工程师精读此PR,重点关注 `ShmPointerMMData` 类的设计权衡,如序列化简化、内存管理策略(延迟解包与显式materialize),以及调度器中解包时机调整对分布式通信的优化效果,这些决策对高性能推理系统具有借鉴价值。
作者 mickqian · 合并时间 2026-03-28 23:02
为 SGLang 添加覆盖层模型支持,扩展非 diffusers 扩散模型的加载能力。
建议工程师精读 model_overlay.py 以理解覆盖层解析的核心设计,关注 maybe_resolve_overlay_model_path 函数的实现,这涉及模型路径解析和缓存策略。
作者 yuan-luo · 合并时间 2026-03-28 21:32
修复由 PR 21534 引入的 CI lint 失败,将 AccuracyTestParams 格式化为单行以通过 pre-commit 钩子。
该 PR 不值得精读,变更简单机械。关注点在于 CI 流程中的格式化工具交互和团队对代码风格的权衡决策。
作者 adityavaid · 合并时间 2026-03-28 17:28
修复 Flux2-Klein 模型提示词标记化长度从 77 改为 512,并添加回归测试。
推荐精读以了解如何修复配置继承导致的 bug。关注 tokenize_prompt 方法中硬编码 max_length 的决策,以及如何通过添加 text_encoder_extra_args 字段避免类似问题,对扩散模型开发有参考价值。
作者 Fridge003 · 合并时间 2026-03-28 15:35
移除已弃用的FP8/FP4 GEMM环境变量,使用CLI标志替代配置。
对于技术管理者和工程师,建议关注向后兼容性迁移,确保用户文档已更新。该PR值得简要阅读以了解清理策略和配置演进方向,但无需深入分析复杂代码逻辑。
作者 Jacob0226 · 合并时间 2026-03-28 15:28
为 AMD MI35x 添加 GLM-4.7-FP8 GSM8K 精度测试的 CI 任务。
建议对 AMD 测试套件或模型精度验证感兴趣的工程师精读此 PR,关注测试配置、CI 集成方式以及 review 中的设计讨论。
参与讨论