#7105 [append attention] remove useless code
作者 zhoutianzi666 · 合并时间 2026-03-31 16:13
移除GPU append attention内核中的冗余条件检查代码。
该PR变更简单,不值得深入精读,但可作为代码清理的参考。关注点:确保删除的代码确实冗余,不会影响正确性。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 zhoutianzi666 · 合并时间 2026-03-31 16:13
移除GPU append attention内核中的冗余条件检查代码。
该PR变更简单,不值得深入精读,但可作为代码清理的参考。关注点:确保删除的代码确实冗余,不会影响正确性。
作者 cloudforge1 · 合并时间 2026-03-31 15:29
为 async_expert_loader 模块补充单元测试,覆盖率提升至 100%。
该 PR 主要对测试工程师和模块维护者有参考价值: - 值得阅读以学习如何在 FastDeploy 中编写高质量单元测试,特别是减少 mock、模拟外部依赖的技巧。 - 对于关注 EPLB 或 Loader 模块的开发者,可了解测试覆盖的分支和异常情况。 - 由于不涉及生产代码变更,无需深入分析核心算法。
作者 Guo-Yilong · 合并时间 2026-03-31 13:48
为Qwen3VL模型新增clear_grpah_opt_backend方法,以统一清理CUDA Graph缓存。
该PR变更简单,值得快速合并以完善接口。建议关注方法名的拼写错误,并考虑在后续PR中添加单元测试以确保正确性。对于工程师,可以了解如何通过委托模式保持接口一致性。
作者 EmmonsCurse · 合并时间 2026-03-31 13:24
移除 CI 对仅 *.txt 文件更改的跳过逻辑,确保依赖更新触发验证。
此 PR 简单直接,值得快速审阅以确认 CI 逻辑修正。无需深度分析,但建议关注变更是否覆盖所有依赖文件类型,并确保 CI 资源充足以应对可能的运行增加。
作者 huicongyao · 合并时间 2026-03-31 11:05
修复CUDA图捕获失败,通过替换虚拟运行时的EOS token。
对于从事GPU优化、speculate decoding或CUDA图捕获的工程师,建议快速浏览此PR以了解虚拟运行中处理EOS token的陷阱。代码简单,但体现了CUDA图捕获的常见问题处理,值得在类似场景中借鉴。
作者 qwes5s5 · 合并时间 2026-03-31 11:02
新增主动中断推理请求的/v1/abort_requests端点,支持中止特定或全部请求。
建议精读此PR以理解主动控制接口的设计模式,特别关注并发安全和API一致性讨论。对于类似功能开发,可参考其实现,但需注意修复review中提出的风险点,如加锁保护、统一参数名和补充测试。
作者 liyonghua0910 · 合并时间 2026-03-31 10:52
修复多API服务器中推测性仪表指标的重复导出和目录隔离问题。
此PR值得精读,特别是关注fastdeploy/metrics/metrics.py中的指标管理设计,如re_register_speculative_gauge方法。工程师可学习多进程指标过滤和重新注册的最佳实践,以及环境变量隔离的重要性。建议关注测试覆盖的缺失行,确保长期稳定性。
作者 rainyfly · 合并时间 2026-03-30 20:36
优化PD预填充场景下的调度逻辑,减少排队并提升批处理效率。
面向技术管理者和工程师,建议: - **精读重点**:该PR值得精读,特别是engine_forward_signal的设计和调度时机变化,这些是性能优化的关键决策点。 - **关注设计**:留意讨论中的并发优化建议和接口语义问题,可应用于其他调度优化场景。 - **跟进风险**:建议后续补充测试覆盖,并监控生产环境中的性能表现和并发问题。
参与讨论