更新sgl-kernel安装提示适配CUDA 12
无需深入阅读,属于紧跟上游依赖变更的维护性修改。可以作为如何保持安装提示信息与依赖版本同步的参考。
SGLang is a high-performance serving framework for large language models and multimodal models.
更新sgl-kernel安装提示适配CUDA 12
无需深入阅读,属于紧跟上游依赖变更的维护性修改。可以作为如何保持安装提示信息与依赖版本同步的参考。
升级 PyTorch 至 2.11.0 并适配 CI 与模型兼容性
建议所有开发者更新本地环境至 PyTorch 2.11 以与主分支对齐;重点审查扩散模型的输出差异和 MoE 编译 guard 逻辑。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-03 03:25
删除 --prerelease allow 以提升 CI 稳定性
该 PR 变更简单明确,可作为 CI 最佳实践的参考:显式禁止预发布版本可避免意外引入不稳定的依赖。建议同时评估是否移除 `unsafe-best-match` 以增强安全性。
原始 PR · 作者 Kangyan-Zhou · 合并时间 2026-05-03 02:43
对齐网关端点并删除死代码 /rerank
值得精读,学习 API 版本迁移和废弃端点的管理模式。建议在后续 PR 中补充 `/v1/rerank` 的更多测试用例以弥补覆盖损失。
为DoRA适配器抛出ValueError
值得精读,展示了在大型项目中逐步添加功能预检并小范围重构异常处理模式的设计思路。
更新 diffusion benchmark 预设并新增 LTX-2.3 支持
对于使用 diffusion benchmark 的团队建议尽快同步本 PR,确保基准测试的标准化。同时建议后续技能更新保持这种同步模式,并考虑自动化 weekly watchlist 更新。
默认启用 GroupNorm+SiLU 融合以加速 HunyuanVideo VAE 解码
值得精读,设计上采用安全 fallback 模式值得借鉴。review 中关于延迟导入的讨论也有参考价值。
GroupNorm SiLU 大形状优化,VAE 解码加速 18x
建议合并。该 PR 展示了 Triton kernel 优化的典型手法:通过分析访问模式简化地址计算和寄存器使用。新增的 benchmark 脚本便于未来回归和调优。值得关注的设计决策是使用条件分支选择不同 kernel 而非统一路径,以及将 num_warps 从 8 降低到 4 的权衡。
参与讨论