修复H200 GPU上会话控制测试的CI稳定性,通过继承CustomTestCase并禁用CUDA图优化。
该PR值得快速浏览,重点关注其如何通过禁用CUDA图优化解决硬件特定数值差异问题。对于涉及会话控制或CUDA图优化的测试,可借鉴此方法确保计算路径一致性。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复H200 GPU上会话控制测试的CI稳定性,通过继承CustomTestCase并禁用CUDA图优化。
该PR值得快速浏览,重点关注其如何通过禁用CUDA图优化解决硬件特定数值差异问题。对于涉及会话控制或CUDA图优化的测试,可借鉴此方法确保计算路径一致性。
移除AsyncMMDataProcessor包装器,简化多模态数据处理逻辑。
建议工程师精读此PR,了解多模态处理器异步设计的历史问题和简化决策。特别关注llava.py中添加的超时实现,以及tokenizer_manager.py中直接调用异步方法的变更,以理解如何平衡设计简洁性与功能需求。
更新Ascend NPU文档,移除已弃用参数并添加Qwen3-235B模型长序列示例。
对于使用Ascend NPU平台的开发者,建议关注新增的Qwen3-235B长序列示例,以获取最新配置实践。PR本身为文档更新,无需代码审查,但文档变更值得验证以确保内容准确。
修复diffusion生成器中--prompt-path参数未消费的bug,确保优先从SamplingParams读取提示文件。
该PR值得精读,特别是_resolve_prompts方法中的优先级处理和错误逻辑设计,可作为参数解析和文件读取的范例。建议关注generate方法中sampling_params_kwargs的null安全处理,以及测试用例的完整性。
修复调度器中in-place暂停模式的内存泄漏问题。
建议快速浏览以理解调度器状态管理的设计决策:通过冻结状态而非重复逻辑来避免bug。这是一个简洁的bugfix,实现简单但设计值得关注,适合工程师学习状态一致性处理。
修复HybridMambaDecodeReqToTokenPool中effective_mamba_size计算错误,避免内存过度分配和CUDA OOM。
建议精读此PR,重点关注设计决策:如何平衡用户指定参数和内部预分配需求,以及通过min函数和警告处理边界条件的实践。对于涉及内存池和调度的开发者,此变更提供了参数验证的参考。
原始 PR · 作者 yudian0504 · 合并时间 2026-04-01 16:15
修复多GPU VLM服务中共享内存广播的竞态条件,避免FileNotFoundError崩溃。
该PR值得精读,重点关注条件barrier的设计权衡和共享内存处理机制。建议工程师查看scheduler.py中recv_requests函数的条件判断逻辑,理解如何平衡性能和正确性;同时关注mm_utils.py中的has_shm_features函数实现,学习如何检测共享内存特征以优化同步。对于技术管理者,可借此讨论分布式系统竞态条件预防的最佳实践。
原始 PR · 作者 xiezhq-hermann · 合并时间 2026-04-01 16:03
重构 hisparse 组件,引入动态共享内存分配并调整调度逻辑。
此 PR 值得精读,尤其关注动态共享内存设计(SmemLayout 结构体)和调度逻辑隔离策略。建议工程师学习 CUDA 内核中内存对齐和动态分配的最佳实践,并注意 hisparse 启用时的 backend 配置要求。对技术管理者,可评估 hisparse 性能改进和风险缓解措施。
参与讨论