#42648 Add HumanEval and GSM8K benchmarks to datasets
原始 PR · 作者 southfreebird · 合并时间 2026-05-16 04:01
添加 HumanEval 和 GSM8K 基准测试数据集
对于需要扩展基准数据集的开发者,这是一个良好的参考实例,展示了如何遵循现有模式添加 HuggingFace 数据集。
A high-throughput and memory-efficient inference and serving engine for LLMs
原始 PR · 作者 southfreebird · 合并时间 2026-05-16 04:01
添加 HumanEval 和 GSM8K 基准测试数据集
对于需要扩展基准数据集的开发者,这是一个良好的参考实例,展示了如何遵循现有模式添加 HuggingFace 数据集。
修复 FlashAttn 错误接受未处理 FP8 缓存类型
建议阅读 supports_kv_cache_dtype 的修复策略(从黑名单到白名单),以及在删除共享函数时配套更新所有调用点和文档生成脚本的完整流程。这是处理相似路由问题的可参考样例。
原始 PR · 作者 frida-andersson · 合并时间 2026-05-16 03:02
恢复稀疏MLA中topk_tokens=2048的快速C++内核路径
值得精读。这是一个典型的“性能回归修复 + 架构清理”组合 PR,展示了如何在不影响通用性的前提下为常见配置恢复专用加速路径。`_topk_indices_prefill`/`_topk_indices_decode` 的分发模式可复用。
修复SM121被排除在Marlin/CUTLASS FP8路径外
推荐阅读。该PR展示了如何通过有界家族匹配而非精确匹配来处理架构兼容性,是一种可复用的设计模式。同时解决了多个长期未关闭的issue,对Blackwell用户至关重要。
原始 PR · 作者 chunxiaozheng · 合并时间 2026-05-16 01:46
优先从 lmcache 包导入 LMCacheMPConnector
值得精读,尤其是动态解析类实现和降级策略的设计模式。对于依赖 LMCache kv 传输的组件,建议关注后续 lmcache 包版本与 vLLM 的兼容性。
放宽 AITER 1-stage AR+RMS kernel 准入条件
推荐合并。PR 逻辑清晰、影响局部、收益明确,且经过维护者批准。无需深入精读,但可作为 ROCm 上 AITER 集成中与内核约束对齐的简洁示例。
原始 PR · 作者 yewentao256 · 合并时间 2026-05-16 00:41
MR v2 支持权重重载(sleep mode)
建议在完成 v2 完全迁移后,移除此委托方法并直接内联实现。同时应补充单元测试覆盖 `reload_weights` 调用后的缓存重置行为。
原始 PR · 作者 PatchouliTIS · 合并时间 2026-05-16 00:20
Gumbel 采样默认使用 FP32 以提升性能
值得精读学习如何在 Triton 内核中安全切换 FP32/FP64 并处理边界值;以及从环境变量演化到引擎标志的设计决策过程,体现了代码的健壮性和可维护性。
参与讨论