Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 10:11 同步状态:空闲 下次计划:2026-06-07 11:11

PR 列表

更多筛选
2026-06-06

#27096 [diffusion] Cosmos3 fused qknorm rope

原始 PR · 作者 qimcis · 合并时间 2026-06-06 09:15

性能优化 重要性 8.76 洞察度 6.00

融合 QK-norm 与 RoPE,Cosmos3 推理加速 4 倍

此 PR 值得精读,尤其推荐给以下读者: - 关注文生视频模型推理性能优化 - 想了解如何将特定模型组件(如 Qwen3 half-split RoPE)映射到通用融合 kernel - 需要学习 GQA 场景下 partial rope 的 triton 实现模式 - 研究 DiT 架构注意力层加速的工程师

测试 重要性 8.15 洞察度 5.00

为scripted-runtime添加单元/集成和chunked-prefill测试

本PR值得精读,特别是对sglang测试基础设施感兴趣的团队成员。`test_scripted_runtime_core.py`展示了如何通过生成器脚本驱动调度器步进测试,这种模式可复用于其他模块的集成测试。`test_scripted_core_1gpu.py`中的生命周期暂停测试设计精巧,覆盖了`pause_generation(mode='retract')`后的waiting_queue行为和输出冻结验证。建议所有scripted-runtime的相关修改都运行这些测试以确保不破坏语义。

测试 重要性 6.98 洞察度 3.00

为 scripted runtime 添加 KV 池和锁引用耗尽原语

测试团队推荐精读这两个 Exhauster 的实现,后续 chunked-prefill 测试将依赖它们。也可作为如何在 scripted 测试中模拟系统状态的参考模式。

测试 重要性 8.47 洞察度 6.00

新增 scripted-runtime 测试框架核心与调度器 IPC 钩子

值得对 scripted-runtime 感兴趣或有复杂调度测试需求的工程师阅读,尤其 ScriptedSchedulerHook 的 IPC 分发和 ScriptedHttpServer 的生命周期管理设计。

测试 重要性 7.00 洞察度 3.00

为 kv_canary 添加 PP 自测夹具和 SWA divergence 测试

值得关注 `CanaryPPFixture` 基类的设计,它为 PP 测试提供了可复用的服务器参数配置和生命周期管理,为后续更多 PP 场景测试提供了模式参考。建议读者精读新增的扰动测试用例,了解 real-kv-hash 扰动的触发条件与断言方法。

#27405 Don't write crash dump on graceful exit

原始 PR · 作者 cctry · 合并时间 2026-06-06 08:06

缺陷修复 重要性 3.84 洞察度 2.00

修复优雅退出时误写 crash dump 的问题

本次变更为一次小范围、低风险的 bugfix,逻辑清晰,改动量小。建议快速合并。

功能 重要性 6.55 洞察度 6.00

OOT平台插件设备检测修复与导入优化

此 PR 是硬件抽象层 RFC 的第一步落地,值得关注其设计取舍。对于平台集成者,建议精读 `device_mixin.py` 和 `device_config.py` 的变更以了解接口约定。对于核心开发者,注意后续需要清理剩余的延迟导入和硬编码检查。

参与讨论