Prhub
← 返回仓库详情

标签聚合

sgl-project/sglang · 标签视图

标签列表

聚合结果

deepseek 相关 PR

2026-04-14

#21232 [sgl] perf optimization for eplb

作者 bixue2010 · 合并时间 2026-04-14 22:52

性能优化 重要性 6.00 洞察度 6.00

优化eplb算法性能,从>10秒降至0.2-0.3秒。

performance run-ci deepseek

建议技术管理者精读此PR,关注算法优化策略和测试实践;工程师可学习如何将张量操作优化为列表操作以减少开销,并参考新增的单元测试作为质量保障范例。

#22543 GLM-5/5.1 MXFP4 Checkpoint Inference Compatibility Fix

作者 ColinZ22 · 合并时间 2026-04-14 14:56

缺陷修复 重要性 5.00 洞察度 5.00

修复 GLM-5/5.1 MXFP4 量化检查点在 SGLang 中的推理兼容性问题。

deepseek bugfix quant run-ci

该 PR 值得精读,特别是对于处理量化模型加载和 DeepSeek 架构的工程师。关注点包括:1) `packed_modules_mapping` 在模型加载中的通用设计模式;2) 条件检查如何精准隔离架构特定的量化处理逻辑,避免副作用;3) 从 review 讨论中学习代码结构一致性和防御性编程的最佳实践。

2026-04-13
缺陷修复 重要性 4.00 洞察度 3.00

修复CPU后端DeepSeek-V3.1-Terminus模型运行时的参数类型错误。

bugfix run-ci deepseek cpu

该PR值得快速浏览以了解CPU后端量化参数传递的细节。关注点:1. qkv_proj_with_rope_is_fp8标志的使用方式,反映了量化类型的内核分发逻辑。2. 内核函数接口(w_scale类型为Optional[Tensor])的设计,可能影响其他量化场景。对于维护CPU后端或量化模块的工程师,此修复提供了处理类似类型不匹配问题的参考模式。

2026-04-12

#22372 [DSA] Hopper FP8 FlashMLA KV padding

作者 mmangkad · 合并时间 2026-04-12 17:19

功能 重要性 5.00 洞察度 4.00

为 FlashMLA KV 内核添加 q-head padding,支持纯 TP 配置下的 FP8 注意力计算。

feature deepseek sgl-kernel run-ci documentation

建议精读 `nsa_backend.py` 中的填充实现,关注 `_forward_flashmla_kv` 方法的设计决策;同时注意默认配置变更对部署的影响。

#22624 [Test] Fix flaky test_function_call_specific by adding strict=True

作者 JustinTong0323 · 合并时间 2026-04-12 16:22

缺陷修复 重要性 3.00 洞察度 4.00

修复工具调用测试的随机失败问题,通过添加strict=True确保参数模式强制约束。

bugfix test run-ci deepseek

这是一个简单的测试修复,无需深入阅读。值得关注的是它揭示了工具调用协议中strict参数的重要性,以及小模型在非严格模式下可能产生不符合参数模式的输出。对于理解工具调用测试的设计和约束解码机制有一定参考价值。

#22361 [Whisper] Batch encoder forward for concurrent prefill requests

作者 JustinTong0323 · 合并时间 2026-04-12 14:15

性能优化 重要性 6.00 洞察度 5.00

Whisper模型编码器从串行改为批量执行,提升高并发预填充吞吐量。

performance diffusion run-ci deepseek npu

该PR值得精读,尤其是对于关注模型推理性能优化的工程师。关键设计决策包括:1) 识别编码器为瓶颈并量化其开销;2) 利用编码器天然的批次兼容性实现无交互的批量执行;3) 输出重塑策略以适配下游KV缓存。建议结合基准测试数据理解不同硬件平台上的收益差异。

#22609 [CI] Update B200 est_times to prevent timeouts on slower machine

作者 alisonshao · 合并时间 2026-04-12 12:40

基础设施 重要性 4.00 洞察度 2.00

更新 B200 测试的预计执行时间,防止在性能较慢的机器上超时。

run-ci test deepseek blackwell

此 PR 变更简单,无需精读。对于负责 CI 基础设施的工程师,可以关注 est_time 调整的策略和硬件性能差异的分析,作为优化测试分区的参考。

2026-04-11

#22586 [Test] Fix flaky `test_function_call_required` by adding `strict=True`

作者 hnyls2002 · 合并时间 2026-04-11 17:14

缺陷修复 重要性 3.00 洞察度 3.00

修复工具调用测试的随机失败问题,通过添加strict=True确保参数模式强制约束。

bugfix test run-ci deepseek

该PR变更简单直接,无需深入阅读。值得关注的是gemini-code-assist[bot]的建议——考虑将strict=True一致地应用于其他相关测试用例,以全面消除随机失败风险。