修复 bench_one_batch.py 中 req_to_token 索引错用循环变量
该 PR 是一个简单但重要的正确性修复。阅读源码片段可了解 req_to_token_pool 的正确索引方式,这对 SGLang 的请求池管理工作有参考价值。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 bench_one_batch.py 中 req_to_token 索引错用循环变量
该 PR 是一个简单但重要的正确性修复。阅读源码片段可了解 req_to_token_pool 的正确索引方式,这对 SGLang 的请求池管理工作有参考价值。
限制 kernels 依赖版本 <0.15
此 PR 是必要的紧急修复,暂不涉及架构性设计。值得在后续版本中关注上游修复进展,并及时移除版本锁定。
原始 PR · 作者 stmatengss · 合并时间 2026-05-29 16:44
修复 IB 设备 JSON 映射验证回归
该 PR 属于重要的 bugfix + 小重构,建议阅读以了解 IB 设备配置的设计模式和验证流程。尤其关注 `parse_ib_device_config` 的提取和内部函数 `_normalize_device_group` 的复用方式,对类似配置解析场景有参考价值。
原始 PR · 作者 rbrugaro-amd · 合并时间 2026-05-29 16:28
消除 MLA 注意力 MXFP4 路径冗余拷贝
建议合入。该 PR 是一个典型的零开销布局优化范例,通过改变分配顺序消除隐式拷贝,代码改动量小、收益明确、风险低。值得关注的是其利用 aiter 内核 stride 参数支持非连续输出的特性,可在类似场景复用。
更改 sgl-deep-gemm 构建默认分支
可快速合并,无需额外审查。
原始 PR · 作者 monkeyLoveding · 合并时间 2026-05-29 16:09
修复 NPU CI 配置中变量引用错误
值得合并,属于紧急 CI 修复。可关注后续是否有更多类似变量引用错误。
修复 CPU 核中 b_ptr 索引错误
建议尽快合并。该修复为明确的 bugfix,且已有充分测试验证。对于关注 CPU 推理性能的团队值得关注。
为CPU添加GPT-OSS模型优化支持
值得精读,尤其是MoE kernel中bias和swiglu融合的设计方式、flash_attn逐行处理以支持sliding window的取舍,以及测试重构(@parametrize)模式。建议关注MXFP4路径的后续性能基准测试。
参与讨论