修复 LMSYS 博客同步 CI 工作流
建议合并。这是一个简单的 CI 修复,设计清晰,已通过 review。值得关注的是使用 `gh` CLI 替代第三方 action 的做法,可降低依赖风险。
SGLang is a high-performance serving framework for large language models and multimodal models.
修复 LMSYS 博客同步 CI 工作流
建议合并。这是一个简单的 CI 修复,设计清晰,已通过 review。值得关注的是使用 `gh` CLI 替代第三方 action 的做法,可降低依赖风险。
原始 PR · 作者 merrymercy · 合并时间 2026-06-05 06:52
修复 CustomSpecAlgo 接口缺失并添加一致性守卫
值得精读,展示了如何通过运行时守卫维护鸭子类型接口一致性,可在类似插件系统中借鉴。同时体现了尽早失败(fail-fast)的设计原则。
SM120 NVFP4 性能与可用性优化
值得精读,该 PR 展示了针对特定硬件 (SM120) 进行系统性性能优化的典型方法:从后端选择、autotune 触发、kernel 配置到量化修复,覆盖了整个推理链路。设计权衡(如后端切换原因、配置一致性处理)有参考价值。建议重点关注 `_should_run_flashinfer_autotune` 和 `try_get_optimal_moe_config` 的变更逻辑。
修复多模态基准测试提示生成中特殊标记污染问题
建议合并。此PR修复了真实用户发现的多模态基准测试数据生成正确性问题,代码变更简洁,有单元测试覆盖,且通过了review的讨论和验证。
为 Qwen3.5 添加 H100 FP8 下的 --enable-symm-mem 支持
建议合并,属于有益的文档改进。无需深度审查。
新增 FlashInfer NVFP4 4over6 支持
此 PR 值得精读,展示了如何集成上游量化新特性,并通过环境变量控制运行时行为。重点关注 `environ.py` 中环境变量的定义规范和 `flashinfer_trtllm.py` 中条件量化的实现模式。
默认启用 DeepGEMM PDL
此 PR 是低风险、有明确性能收益的微小优化,适合合并。建议相关工程师了解 PDL 的基本原理,以及通过环境变量控制该特性的方式。
测试中繁忙内存检查降级为安静模式
可直接合入,变更简单且意图明确。建议在日后 CI 调试时,若怀疑内存泄漏相关故障,可临时切换回 level 2 获取详细日志。
参与讨论