#26883 [PP][Bugfix] Handle input_ids assignment in prepare_for_extend
原始 PR · 作者 ShangmingCai · 合并时间 2026-06-01 14:43
修复 PP profiler 中 deferred H2D 后 input_ids 未赋值
值得合入,修复明确,逻辑可读且无副作用。建议验证 PP profiling 端到端测试通过。
SGLang is a high-performance serving framework for large language models and multimodal models.
原始 PR · 作者 ShangmingCai · 合并时间 2026-06-01 14:43
修复 PP profiler 中 deferred H2D 后 input_ids 未赋值
值得合入,修复明确,逻辑可读且无副作用。建议验证 PP profiling 端到端测试通过。
原始 PR · 作者 merrymercy · 合并时间 2026-06-01 12:27
修复权重检查器零维张量与多GPU支持
建议团队成员特别是部署运维人员阅读此 PR,了解 weights_checker 的新用法和潜在风险。对于分布式调试非常有用。关注 review 中提出的 deadlock 问题,确保实际部署环境中的进程模型匹配。
扩散测试采样参数自动推断,移除冗余参数
建议扩散测试相关开发者精读 `testcase_configs.py` 中的新增函数,理解推断逻辑。该 PR 的设计模式(通过 task type 自动选择参数模板)值得在其他类似需要多配置的测试场景中复制。同时注意后续新增模型时检查推断映射是否覆盖。
原始 PR · 作者 merrymercy · 合并时间 2026-06-01 11:50
添加 random-ids 数据集和轮询专家模拟
值得关注,尤其是 MoE 基准测试流程的设计思路和确定性模拟的实现。
原始 PR · 作者 brucechanglongxu · 合并时间 2026-06-01 11:45
在 meta_info 中暴露调度器负载信息
值得合入。这个小而清晰的变更充分利用了已有数据通道,消除了冗余的负载轮询。推荐阅读 `_handle_batch_output` 方法以理解数据流路径。
原始 PR · 作者 liuxianglong17 · 合并时间 2026-06-01 11:33
修复 NPU 夜间测试因超时失败
值得快速合入,属于典型的 CI 稳定性修复。关注其中 RPC 套接字关闭模式(`linger=0` + `getattr` 保护),可作为其他 `shutdown` 场景的参考模式。
原始 PR · 作者 Qiaolin-Yu · 合并时间 2026-06-01 11:29
使 spec_v2 中 mla 的 seq_lens_cpu 可选以消除 D2H 同步
该 PR 值得精读,因为它展示了如何通过简单的标志位避免不必要的同步,以提高推测解码性能。设计上的权衡——用预分配的掩码缓冲区换取跳过同步——是典型的 GPU 编程优化模式。建议关注其与上层框架(如 `decide_needs_cpu_seq_lens`)的集成点。
修复 bench_one_batch.py slot 0 索引错位
建议快速合并,修复明确且验证充分(PR body 附有测试命令)。
参与讨论