#7187 [XPU][Docs] Update Release2.5 Note
作者 iosmers · 合并时间 2026-04-07 18:45
更新昆仑芯XPU文档至Release 2.5.0版本,修正版本号和部署命令。
此PR适合文档维护人员和测试人员精读,以了解版本更新细节和文档优化点;工程师可快速浏览部署命令部分,确保参数正确性,但无需深入技术分析。
High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle
作者 iosmers · 合并时间 2026-04-07 18:45
更新昆仑芯XPU文档至Release 2.5.0版本,修正版本号和部署命令。
此PR适合文档维护人员和测试人员精读,以了解版本更新细节和文档优化点;工程师可快速浏览部署命令部分,确保参数正确性,但无需深入技术分析。
作者 StareAtYou · 合并时间 2026-04-07 17:43
为Metax GPU编译添加-Wno-non-pod-varargs选项以抑制警告。
该PR变更简单直接,无需深入精读。值得关注的是fastdeploy-bot提出的配置一致性建议,这反映了跨硬件平台编译配置的统一性考量,建议后续验证Metax GPU是否确实需要-Xcompiler前缀。
作者 cloudforge1 · 合并时间 2026-04-07 16:36
GPU ngram_match kernel 通过 CUB BlockScan 并行化 Phase 2,实现高达 14 倍加速并消除 GPU-CPU 同步。
该 PR 值得精读,特别是对于从事 GPU 高性能计算和 speculative decoding 的工程师。关注点包括:CUB BlockScan 在阈值约束下的应用、atomicMin64 CAS 实现的无锁设计、以及 Phase 1/2 分离的架构权衡。建议结合测试用例理解边界条件处理。
作者 NKNaN · 合并时间 2026-04-07 16:30
修复拼写错误,更正变量名和文件名中的 typo。
这是一个简单的拼写修复 PR,无需深入精读,但可作为代码维护的参考案例。
作者 ZhangYulongg · 合并时间 2026-04-07 16:25
新增随机token_ids基准测试数据集,支持纯token输入的性能评估。
该PR值得快速浏览,特别是关注RandomTokenDataset的实现和random_flag的处理逻辑。设计决策简单直接,但需要注意review中提到的随机数种子问题是否已修复。对于负责基准测试的工程师,建议检查随机数生成逻辑以确保数据多样性。
作者 Sunny-bot1 · 合并时间 2026-04-07 12:07
修复RL场景下MoE门控权重类型不一致问题,统一通过FD_ENABLE_RL环境变量控制。
建议RL团队和MoE模型开发者仔细阅读此PR,了解从dynamic_load_weight到FD_ENABLE_RL的配置迁移要求。关注fastdeploy-bot提出的兼容性问题,评估现有RL训练流程是否需要调整。代码变更简洁,适合快速理解环境变量如何影响模型精度配置。
作者 zhoutianzi666 · 合并时间 2026-04-07 11:21
删除多查询注意力kernel中的ENABLE_PREFILL模板参数,统一内存布局以简化代码。
建议涉及attention kernel和speculative decoding的工程师精读此PR,关注模板参数移除带来的设计简化,以及分阶段重构的策略,以理解代码演进方向。
作者 EmmonsCurse · 合并时间 2026-04-07 10:31
优化CI Code Prepare阶段的清理逻辑,提升自托管runner上的稳定性。
建议CI维护者和负责基础设施的工程师精读此PR,关注其设计决策如多层清理策略和错误处理改进。对于普通开发者,了解CI稳定性的提升即可。
参与讨论