弃用 LLM.reward 离线 API,推荐使用 LLM.encode 替代
建议阅读 PR 的开发者关注文档更新和示例,以理解 pooling 任务的正确使用;同时监控下游代码是否使用 `LLM.reward`,以便在 v0.23 移除前完成迁移。
A high-throughput and memory-efficient inference and serving engine for LLMs
弃用 LLM.reward 离线 API,推荐使用 LLM.encode 替代
建议阅读 PR 的开发者关注文档更新和示例,以理解 pooling 任务的正确使用;同时监控下游代码是否使用 `LLM.reward`,以便在 v0.23 移除前完成迁移。
修复 HYV3ReasoningParser 初始化时变输入参数字典的问题
该 PR 值得精读,尤其是 reasoning parser 构造函数的模式设计——函数不应修改传入的可变对象。建议团队在类似场景中统一使用 `.get()` 而非 `.pop()`。
修复 RISC-V 平台检测与 lscpu 解析问题
值得精读的部分:`_get_cpu_list()` 中 lscpu 输出的正则处理策略,以及如何优雅地处理不完全的拓扑信息。建议关注 `_synthesize_cpu_list` 的引入位置,它为后续可能出现的其他弱拓扑平台提供了复用基础。
懒加载 mistral_common 包,避免非 Mistral 场景下的过早导入
值得精读,展示了如何通过 `LazyLoader` + 类属性标记实现条件懒加载,避免大型依赖包过早导入。设计模式清晰,可作团队内部最佳实践参考。
原始 PR · 作者 VinayakMishra95 · 合并时间 2026-04-24 10:23
修正 README 中 vLLM 和 Hugging Face 的大小写
可直接合并。此 PR 为清洁的文档修正,无技术含量,但体现了对细节的关注,适合快速合入。
修复预填充预热批次被误分类为解码批次的问题
值得精读。虽然变更代码量很小(+9/-6),但修复了一个仅在特定条件下触发的关键路径误分类问题,体现了对MRV2架构细节的深入理解。推荐关注设计决策:通过增加预热prompt长度来确保查询长度差异,这是一种简洁且非侵入式的修复方案。
替换 tokenizer.encode/decode 为 vocab 查找修复并发借用
值得精读。展示了如何通过消除共享可变状态而非加锁来解决并发问题,方法简洁高效。关注的重点:利用 tokenizer 内部已缓存的 vocabl(线程安全)替代 encode 调用,这是典型的“移走而非保护”策略。
原始 PR · 作者 dmitry-tokarev-nv · 合并时间 2026-04-24 09:19
curl 下载添加重试机制提升脚本可靠性
简单但有效的可靠性改进,值得合入。可关注 CI 日志确认重试是否成功。
参与讨论