#7049 [XPU] Fix speculate schedule
作者 cmcamdy · 合并时间 2026-03-27 18:28
修复XPU推测调度缓存内核bug,优化内存和线程处理。
建议工程师精读内核代码变更,特别是线程分配和内存访问优化部分,这些是低层性能关键点。对于维护XPU相关代码的团队,此PR提供了内存管理和并发处理的参考,值得关注数组大小限制可能带来的约束。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 cmcamdy · 合并时间 2026-03-27 18:28
修复XPU推测调度缓存内核bug,优化内存和线程处理。
建议工程师精读内核代码变更,特别是线程分配和内存访问优化部分,这些是低层性能关键点。对于维护XPU相关代码的团队,此PR提供了内存管理和并发处理的参考,值得关注数组大小限制可能带来的约束。
作者 cloudforge1 · 合并时间 2026-03-27 17:15
添加ernie4_5_mtp模型的单元测试,覆盖率从36%提升至93%。
建议工程师在修改ernie4_5_mtp模型时参考此测试文件,以确保兼容性;对于测试工程师,可学习其使用Stub模拟依赖的测试模式,以提高单元测试编写效率。
作者 fxyfxy777 · 合并时间 2026-03-27 16:10
优化 GPU kernel 以提升 SwiGLU FP8 量化性能,测试提速 20%-30%。
值得精读,特别是 CUDA 优化技巧如共享内存前缀和、专家缓存和向量化优化;建议关注性能测试方法和具体实现细节,以应用于类似 MoE 或量化 kernel 场景。
作者 Deleter-D · 合并时间 2026-03-27 15:28
修复 clear_parameters 在 draft CUDA Graph 中的 bug,确保 GPU 模型运行器正确清理状态。
建议:此 PR 变更简单,适合快速合并和部署。关注点:检查 `clear_grpah_opt_backend()` 拼写是否正确,并确保端到端测试覆盖相关场景。对于工程师,可快速浏览以了解 GPU 图优化清理机制。
作者 mouxinqq · 合并时间 2026-03-27 15:13
更新 Go 路由器错误日志,增强错误信息的可读性和调试能力。
建议快速浏览以了解 Go 路由器错误日志最佳实践,重点关注关键路径(如 completions.go 和 handler.go)的日志添加模式。对于深入理解错误处理设计或日志结构化,此 PR 提供简单示例,但无复杂技术决策。
作者 EmmonsCurse · 合并时间 2026-03-27 14:15
禁用Qwen3VLMoe端到端测试在单元测试中以确保CI稳定性。
此PR变更简单,工程师无需精读;CI维护者可参考以理解测试配置调整。
作者 luukunn · 合并时间 2026-03-26 09:49
优化 streaming 请求,在 skipped 时仍返回完整 token ids 以支持特殊 tokens。
建议技术管理者关注此 PR,因为它涉及核心 streaming 逻辑的优化,对 token ids 完整性有重要意义。工程师可以精读 serving_chat.py 和 serving_completion.py 的改动,学习如何在 skipped 场景下处理 token ids,并注意测试用例的更新以避免回归。
作者 cloudforge1 · 合并时间 2026-03-20 13:14
为load_weight_utils模块添加全面单元测试,覆盖率从45%提升至97%。
对于技术管理者,此PR无需精读,除非关注测试覆盖率提升或Hackathon进展。对于工程师,可以快速浏览测试设计,特别是如何模拟复杂配置和使用Pytest fixture,以学习测试最佳实践。
参与讨论