#43540 [Quantization] Fix Humming RoutedExperts import
原始 PR · 作者 fallintoplace · 合并时间 2026-05-28 01:51
修复 Humming MoE 导入路径错误
建议合并。改动经过充分 review,修复了明确的 bug,风险低。虽然测试被移除,但改动的简单性使得测试回报较低。可读性方面,导入路径更清晰,与项目其他部分一致。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 fallintoplace · 合并时间 2026-05-28 01:51
修复 Humming MoE 导入路径错误
建议合并。改动经过充分 review,修复了明确的 bug,风险低。虽然测试被移除,但改动的简单性使得测试回报较低。可读性方面,导入路径更清晰,与项目其他部分一致。
原始 PR · 作者 cleonard530 · 合并时间 2026-05-28 00:35
迁移 attention/mamba/sampler 内核到 torch stable ABI
建议精读 `csrc/libtorch_stable/torch_bindings.cpp` 和 `csrc/libtorch_stable/ops.h`,了解稳定 ABI 的注册和声明模式。对于需要迁移自定义内核的开发者,本 PR 提供了清晰的参考模板。同时关注常量正确性讨论,这在跨 ABI 时尤其重要。
原始 PR · 作者 jatseng-ai · 合并时间 2026-05-28 00:33
拆分 MoRI 后端为 mori_high_throughput / mori_low_latency
值得阅读,展示了如何在不引入新配置项的情况下扩展后端选择。设计上遵循现有模式,评审中对环境变量的取舍值得借鉴。
修复因 eager import 导致的 CUDA 驱动提前初始化
此 PR 是修复 CI 的关键修复,建议合并。其设计决策(避免在 __init__.py 中导出可能引入副作用的大模块)值得其他模块借鉴。
原始 PR · 作者 chunyang-wen · 合并时间 2026-05-28 00:09
修复文档生成时重复 GitHub 图标问题
可以快速合入。无需精读,但可作为学习 MkDocs 预处理顺序影响的好例子。
修复 HF_HUB_OFFLINE=1 时云存储 URI 导致崩溃的 bug
此 PR 值得精读,特别是如果有云部署或离线环境需求。它展示了如何通过早期判断避免 HuggingFace Hub 的输入验证,以及如何修复易被忽视的 URI 传递错误。设计上,它选择在 `EngineArgs` 层面做防御性检查而非修改 `get_model_path`,这是一个合理且侵入性小的方案。
升级 cutedsl 依赖到 4.5.2
可快速合并。建议在后续 CI 中关注 FA4 相关测试是否通过。
修复 Gemma4 Responses API 思考未启用
值得合并。设计简洁,尊重用户显式设置,且通过 `resolve_chat_template_kwargs` 天然过滤不兼容模型的 kwarg,安全无侵入。文档同步更新清晰。
参与讨论