Prhub

sgl-project/sglang · 标签视图

标签列表

聚合结果

refactor 相关 PR

2026-06-07
性能优化 重要性 6.80 洞察度 6.00

指数搜索优化 RadixCache.match 减少逐元素比较

值得精读。指数搜索 + 二分查找的模式通用性强,可推广到其他线性扫描场景。PR 对类型兼容性问题处理果断,测试完备,可放心合入。建议后续关注 million-token 级别的实测数据。

重构 重要性 7.95 洞察度 5.00

统一 spec decode KV 分配预留计算并移动 helper

建议精读,因为展示了如何通过集中化计算消除重复逻辑并解决导入循环,是一个教科书级的纯重构案例。特别关注 `pr_fix_toggle.py` 中 revert target 的迁移方式。

重构 重要性 9.08 洞察度 7.00

eager 前向路径通过 CUDA graph 缓冲注册表路由

值得精读,尤其是 extract_buffer 的 None 携带逻辑和 computed slot 暴露策略,以及如何通过参数化构建函数支持不同前向路径。提供了清晰的注释和单元测试。建议部署者评估 decode 延迟并在需要时启用 SGLANG_EAGER_INPUT_NO_COPY。

2026-06-06
测试 重要性 8.15 洞察度 5.00

为scripted-runtime添加单元/集成和chunked-prefill测试

本PR值得精读,特别是对sglang测试基础设施感兴趣的团队成员。`test_scripted_runtime_core.py`展示了如何通过生成器脚本驱动调度器步进测试,这种模式可复用于其他模块的集成测试。`test_scripted_core_1gpu.py`中的生命周期暂停测试设计精巧,覆盖了`pause_generation(mode='retract')`后的waiting_queue行为和输出冻结验证。建议所有scripted-runtime的相关修改都运行这些测试以确保不破坏语义。

功能 重要性 6.55 洞察度 6.00

OOT平台插件设备检测修复与导入优化

此 PR 是硬件抽象层 RFC 的第一步落地,值得关注其设计取舍。对于平台集成者,建议精读 `device_mixin.py` 和 `device_config.py` 的变更以了解接口约定。对于核心开发者,注意后续需要清理剩余的延迟导入和硬编码检查。

2026-06-05
重构 重要性 8.99 洞察度 7.00

用 batch 携带的 attention plan marker 替换 skip_attn_backend_init

强烈建议阅读。PR 展示了如何用 batch 携带的状态替换控制耦合,以及如何通过 opt-in 的 plan record 安全地实现 staleness re-plan,是 speculative decoding 路径中一次重要的基础设施重构。设计思路(将断言从调用链远处转移到数据本身)值得其他类似场景借鉴。