#36169 feat(grpc): extract gRPC servicer into smg-grpc-servicer package, add --grpc flag to vllm serve
原始 PR · 作者 CatherineSue · 合并时间 2026-03-10 18:29
将gRPC servicer提取到外部包,新增--grpc标志启用gRPC服务器。
建议工程师精读此PR,以了解如何通过模块化设计分离核心功能与外部服务,关注依赖管理的调整和懒导入的实现。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 CatherineSue · 合并时间 2026-03-10 18:29
将gRPC servicer提取到外部包,新增--grpc标志启用gRPC服务器。
建议工程师精读此PR,以了解如何通过模块化设计分离核心功能与外部服务,关注依赖管理的调整和懒导入的实现。
为Qwen3 Next添加融合sigmoid gating delta rule更新kernel,减少内存流量和启动开销。
该PR值得精读,重点关注融合kernel的设计决策(如支持spec解码、数据类型处理)和性能优化策略(如用rsqrt替换sqrt)。工程师可学习Triton kernel融合技巧,管理者可评估性能改进对生产部署的价值。
修复 LMCache 多进程模式下因未释放查找锁导致的内存泄漏问题。
建议团队阅读此 PR 以理解 LMCache 锁管理机制和并发处理。变更虽直接,但涉及关键内存安全,值得在类似上下文中参考。注意 maobaolong 提出的未解决问题,可能需要后续调查。
为Flashinfer MLA Sparse attention backend添加FP8 KV缓存支持,实现约14%吞吐提升。
建议技术管理者和工程师精读此PR,特别是关注mla_attention.py中的dtype转换逻辑和flashinfer_mla_sparse.py的backend扩展,以理解fp8 kv cache的设计权衡和性能优化策略。
原始 PR · 作者 PatchouliTIS · 合并时间 2026-03-08 05:51
实现GPU加速的ngram推测解码,并与异步调度兼容,提升推理性能。
该PR值得精读,重点关注GPU kernel的设计(如torch.compile优化和向量化操作)、async scheduling集成中的性能权衡(如内存与速度平衡),以及review中讨论的代码重构决策(如逻辑迁移以减少核心文件影响)。
将 Inductor 编译从懒编译改为提前编译,修复编译时间测量问题并简化编译流程。
建议技术管理者和工程师精读此 PR,特别关注 `VllmBackend.__call__` 和 `piecewise_backend.py` 中的设计决策,如提前编译的实现、内存分配处理以及日志时间测量的权衡,这些对于优化编译流程有重要借鉴价值。
添加 FireRedASR2 语音识别模型支持,扩展 vLLM 多模态功能。
该 PR 值得精读,尤其关注模型如何继承 Qwen2 架构并集成多模态接口(如 SupportsMultiModal 和 SupportsTranscription),以及 review 中讨论的设备无关性和批处理修复,可学习多模态模型在 vLLM 中的实现模式。
原始 PR · 作者 robertgshaw2-redhat · 合并时间 2026-03-04 02:39
重构 MoE 内核框架,引入 monolithic kernel 概念以支持 TRTLLM 内核。
建议技术管理者和核心工程师精读此 PR,重点关注以下方面: 1. **设计决策**:类层次结构从继承转向组合,以及 `maybe_make_prepare_finalize` 的统一接口设计,值得学习。 2. **关键文件**:仔细阅读 `modular_kernel.py` 和 `experts/trtllm_fp8_moe.py`,以理解 monolithic kernel 的实现机制。 3. **测试用例**:参考更新后的测试文件,了解如何适配新接口,确保自身代码的兼容性。
参与讨论