Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

mla 相关 PR

2026-06-07
2026-06-05
性能优化 重要性 6.47 洞察度 5.00

将 FlashMLA KV 索引构建并行化,长上下文延迟从 15us 降至 1-2us

值得精读 kernel 层面的并行化模式。此 PR 展示了如何通过简单的 grid 维度扩展将显式循环转换为 GPU 块级并行,是注意力后端性能优化的典型技巧。

缺陷修复 重要性 7.10 洞察度 5.00

修复混合MLA模型预填充崩溃,委托init_mha_chunk_metadata到全注意力后端

建议精读此 PR,特别是 `init_mha_chunk_metadata` 的委托设计。虽然修复简单,但揭示了后端接口不一致的隐患,值得在后续重构中统一。同时,可扩展测试覆盖到其他 MLA 后端(TRTLLM、CuteDSL),并在委托逻辑中增加参数适配。

2026-05-29
性能优化 重要性 6.60 洞察度 7.00

消除 MLA 注意力 MXFP4 路径冗余拷贝

建议合入。该 PR 是一个典型的零开销布局优化范例,通过改变分配顺序消除隐式拷贝,代码改动量小、收益明确、风险低。值得关注的是其利用 aiter 内核 stride 参数支持非连续输出的特性,可在类似场景复用。

#25880 Update MooncakeStore batch tests to use v1 APIs

原始 PR · 作者 fcczzz · 合并时间 2026-05-29 15:18

测试 重要性 6.86 洞察度 4.00

更新 MooncakeStore 批处理测试以使用 v1 API

建议 MooncakeStore 相关开发者阅读,了解 v1 批处理 API 的正确用法和测试模式,可作为后续类似测试的参考。

功能 重要性 6.61 洞察度 5.00

支持 Kimi-K2.6 EAGLE3.1-MLA 草稿模型

值得精读,尤其是对 speculative decoding 和模型加载兼容性设计感兴趣的人。两个配置标志的默认值设计和遗留标志兼容做法值得学习。

2026-05-26
功能 重要性 9.18 洞察度 6.00

GLM-4.7-Flash 独立 MLA 实现及 NextN 推测解码

建议仔细审查 `glm4_moe_lite_nextn.py` 的 `__init__` 是否按 review 建议修复;若未修复,应及时补充。此 PR 的独立模型设计思路值得参考,尤其 MLA NextN 的 zero_allocator 传递模式。建议合并后补充针对模型加载和 pipeline 的测试。

2026-05-25
缺陷修复 重要性 6.28 洞察度 6.00

修复 DP 解码空闲批次 deadlock

值得精读,尤其关注分布式系统中“空闲批次”作为一等公民的设计思想。三行条件变更修复了一个多节点死锁问题,是分布式调度典型 corner case。