#38119 [MultiModal] add support for numpy array embeddings
原始 PR · 作者 guillaumeguy · 合并时间 2026-03-26 04:13
在ImageEmbeddingMediaIO中添加numpy数组支持,减少payload大小并提升序列化性能。
建议精读此PR,特别是安全修复部分和性能优化设计;关注_load_numpy方法的实现和测试用例,以学习如何处理不同数据格式。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 guillaumeguy · 合并时间 2026-03-26 04:13
在ImageEmbeddingMediaIO中添加numpy数组支持,减少payload大小并提升序列化性能。
建议精读此PR,特别是安全修复部分和性能优化设计;关注_load_numpy方法的实现和测试用例,以学习如何处理不同数据格式。
原始 PR · 作者 SKPsanjeevi · 合并时间 2026-03-26 03:00
支持 ROCm 上的持久化 MLA 内核,减少内核启动开销提升性能。
该 PR 值得精读,特别是对于关注 GPU 内核优化和 ROCm 平台性能的工程师。重点关注持久化缓冲区管理设计、环境变量移除的决策、性能测试结果分析,以及讨论中提到的形状约束问题,这些揭示了内核集成中的技术权衡。
原始 PR · 作者 AndreasKaratzas · 合并时间 2026-03-26 02:46
修复ROCm gfx950平台Mixture of Experts内核测试失败,涉及API差异、数值稳定性和测试增强。
该PR值得精读,特别是ROCm平台MoE内核的实现细节和数值稳定性技巧。建议关注以下设计决策: - 平台特定回退机制(如C++内核保护)的优雅处理方式。 - FP8量化中乘法替换除法以避免边界误差的通用性。 - 测试中容差放松与诊断增强的平衡,可作为处理硬件差异的参考案例。 工程师可从中学习如何适配多平台API差异和优化数值鲁棒性。
重构 KV 缓存失效处理逻辑,移除了对 num_cached_tokens 的依赖,统一同步与异步加载场景下的令牌计数计算。
对于负责调度器、KV 缓存管理或 KV 连接器模块的工程师,建议快速浏览此 PR 以理解错误处理逻辑的简化方向。重点关注 `req_num_computed_tokens` 的新计算方式及其背后的设计意图(精确反映已计算且已缓存的令牌)。对于更广泛的团队,可以将其视为一个代码清理和统一接口的示例。
将API服务器工作进程函数从CLI模块移至v1 utils模块,优化代码组织。
建议快速浏览以了解代码重构方向,特别是APIServerProcessManager的设计变更。对于新开发者,可作为简单模块化重构案例参考。
原始 PR · 作者 DarkLight1337 · 合并时间 2026-03-26 01:22
重构输入模块,重命名类名并拆分文件以标准化引擎和LLM API输入。
建议技术管理者和工程师精读此PR,重点关注以下设计决策: 1. **模块拆分策略**:如何将输入类型按使用场景(LLM API vs. 引擎)分离,以避免循环导入和提升代码组织。 2. **命名规范化**:从复数到单数的类名变更,以及变量名统一(如 `engine_prompts -> engine_inputs`),体现了类型系统的一致性设计。 3. **多模态输入处理**:移动多模态定义到 `vllm.inputs.llm` 和 `vllm.inputs.engine`,展示了如何整合多模态数据到现有输入框架中。 此外,review中的讨论提供了关于文档和类型安全的最佳实践启示。
集成FlashInfer CuteDSL MoE kernel,支持nvfp4量化和batched activation格式。
建议工程师精读`flashinfer_cutedsl_batched_moe.py`以理解batched MoE实现和review中提到的bug设计;技术管理者应关注CI兼容性风险和版本依赖管理,确保新kernel在目标环境可用。
原始 PR · 作者 mikaylagawarecki · 合并时间 2026-03-26 01:15
迁移per_token_group_quant量化内核至PyTorch稳定ABI,更新构建配置和API调用。
面向技术管理者和工程师:此PR值得精读以了解稳定ABI迁移策略和设计权衡。重点关注:1. csrc/libtorch_stable/dispatch_utils.h中的调度宏设计,学习如何适配稳定ABI的调度机制。2. review中讨论的安全漏洞,尽管未在本PR修复,但需在后续工作中评估风险。3. 构建配置变更(CMakeLists.txt)对多平台支持的影响。建议工程师在类似迁移任务中参考此实现模式。
参与讨论