Prhub

sgl-project/sglang

SGLang is a high-performance serving framework for large language models and multimodal models.

监控状态:已开启 最近同步:2026-06-07 12:34 同步状态:空闲 下次计划:2026-06-07 13:34

PR 列表

更多筛选
2026-04-26

#23710 [typo] fix typo in parallel_state

原始 PR · 作者 AlbeeSo · 合并时间 2026-04-26 00:33

缺陷修复 重要性 4.92 洞察度 1.00

修复 parallel_state.py 中的变量名拼写错误

该 PR 已由 `Kangyan-Zhou` 合并,变更简单且经 review 确认。无需进一步关注。

2026-04-25
缺陷修复 重要性 6.52 洞察度 5.00

FA3 内核调用兼容无 `out` 参数版本

建议精读此 PR 以了解兼容性降级模式,并在未来为 `flash_attn_varlen_func` 和 `flash_attn_with_kvcache` 添加针对 `out` 参数不同内核实现的测试。Review 中添加 warning log 的建议虽未被采纳,但值得在后续维护中加入。

文档 重要性 5.82 洞察度 5.00

标记 H200 big PD 已验证并修复配方

该 PR 主要面向 DeepSeek-V4 部署的 H200 用户,值得精读以理解 h200 big PD 部署的关键配置参数及其背后的技术约束(如 DeepEP buffer 计算、MoE 后端选择、CG 批量大小与内存预算的平衡)。团队开发者在类似多节点高 TP 场景下可参考其中的配置模式。

功能 重要性 9.18 洞察度 6.00

在 Ascend NPU 上支持 GGUF 量化模型推理

该 PR 功能完整,设计上采用预去量化策略简化 NPU 推理路径,是一个合理的权衡。建议关注以下设计决策:**预去量化的时机选择**(加载时而非推理时)和 **MoE 权重在 FusedMoE 中的延迟材料化**。对于 NPU 平台的用户,这是一个关键的功能补充。建议团队在未来的量化重构中对 NPU 变体进行统一抽象,以降低维护成本。

#23235 [Bugfix] Restore cache-dit support for LTX2

原始 PR · 作者 gjsheu · 合并时间 2026-04-25 18:10

缺陷修复 重要性 5.99 洞察度 4.00

修复 LTX2 启用 cache-dit 时因 block 缺少 idx 属性导致的崩溃

本 PR 建议精读,它展示了一个典型的“包装对象丢失原始属性”问题的修复模式。使用 `getattr` 安全回退的方式简单有效,但需注意默认值的语义影响。对于依赖 idx 来精确控制 skip/perturbation 的用户可能需要额外配置。未来的改进可以考虑枚举索引以保持功能完整。

#23648 [diffusion] model: Fix FLUX.1/2 graph breaks

原始 PR · 作者 avjves · 合并时间 2026-04-25 17:54

性能优化 重要性 6.67 洞察度 6.00

修复FLUX模型graph breaks,性能提升达42.6%

该PR值得精读,特别是以下设计决策: - 使用 `@torch.compiler.assume_constant_result` 消除warning引起的graph break,这是一种通用的torch.compile优化技巧。 - 将运行时函数调用提升为模块级常量来避免graph break,需注意平台初始化时机。 推荐工程师关注类似模式,在diffusion模型的其他torch.compiled路径中应用。

参与讨论