#38328 [Doc] Clarify Helm chart location in deployment guide
作者 utsumi-fj · 合并时间 2026-03-27 15:43
澄清Helm部署指南中chart位置,使用相对链接提升文档一致性。
此PR是简单的文档更新,无需深入阅读。对于工程师,可关注文档维护的最佳实践,如使用相对链接避免分支相关错误。
A high-throughput and memory-efficient inference and serving engine for LLMs
作者 utsumi-fj · 合并时间 2026-03-27 15:43
澄清Helm部署指南中chart位置,使用相对链接提升文档一致性。
此PR是简单的文档更新,无需深入阅读。对于工程师,可关注文档维护的最佳实践,如使用相对链接避免分支相关错误。
作者 sfeng33 · 合并时间 2026-03-27 14:42
修复 Hermes 工具解析器在流式处理间隔大于 1 时的解析错误。
该 PR 值得精读,特别是新的 diff-based 解析策略,可用于理解和设计流式解析器。建议关注 `extract_tool_calls_streaming` 方法的实现,以及如何通过文本 diff 和状态追踪避免复杂状态机,同时留意测试用例以验证各种边界情况。
作者 BowenBao · 合并时间 2026-03-27 14:38
将 FusedMoE 层的 hidden_size 和 intermediate_size 对齐逻辑重构到 quant_method,提升架构清晰度和性能。
建议工程师精读此 PR 以理解量化方法在尺寸对齐中的新角色,关注 mxfp4.py 和 quark_moe.py 中的实现差异,以及讨论中关于性能权衡的决策。
作者 wendyliu235 · 合并时间 2026-03-27 14:22
为 Intel GPU/XPU 相关 PR 添加自动标签规则。
对于 CI 维护者和对 Intel XPU 支持感兴趣的工程师,建议浏览以了解新标签规则;对于其他工程师,无需深入阅读。
作者 bigPYJ1151 · 合并时间 2026-03-27 14:15
在CPU混合精度线性内核中支持CT W4A16量化格式。
建议工程师精读此PR,重点关注`_process_gptq_weights`函数中的CT格式检测和转置逻辑,以及内存优化讨论。对于技术管理者,值得了解量化支持的扩展方向,并跟踪内存风险的处理进展。
作者 wxsIcey · 合并时间 2026-03-27 14:13
将GatedDeltaNetAttention提取为共享层,统一Qwen3Next和Qwen3.5实现。
该PR值得精读,因为它展示了如何参数化共享层以处理模型差异,并涉及跨平台兼容性设计。建议关注fix_query_key_value_ordering的修复、共享层参数化设计,以及review中关于forward_native的讨论。
作者 cjackal · 合并时间 2026-03-27 13:58
修复OpenAI responses API序列化中字段别名处理,确保与OpenAI库兼容。
建议关注此PR的讨论点,了解Pydantic序列化中返回类型一致性的重要性。对于工程师,可精读serialize_message函数以识别类似潜在不一致问题;对于管理者,变更已合并但存在未解决疑虑,需监控相关bug报告。变更简单,适合快速review。
作者 orozery · 合并时间 2026-03-27 13:38
扩展KV缓存卸载连接器以支持混合模型,引入CanonicalKVCaches类并拆分测试。
建议技术管理者和工程师精读此PR,重点关注`CanonicalKVCaches`类的设计决策,它展示了如何统一处理异构KV缓存布局。同时,注意review中提到的dtype不一致问题,在后续开发中需确保一致性。对于代码简化,可考虑在future PR中重构。
参与讨论