执行摘要
添加 VLLM_MAX_N_SEQUENCES 环境变量,强制限制每请求输出序列数以防止拒绝服务攻击。
根据 PR body,动机是“prevent highly large n sequences blocking the main thread and causing denial of service attacks”,即防止大 n 序列阻塞主线程并导致拒绝服务攻击,旨在通过配置上限来缓解资源滥用风险。
建议精读此 PR,特别是 vllm/sampling_params.py 中的验证逻辑和 docs/usage/security.md 的更新,以了解如何实现资源限制和防范 DoS 攻击。设计简单直接,但展示了安全配置的实践,值得工程师学习。
review 中,gemini-code-assist[bot] 指出测试文件中的缓存问题:'The vllm.envs module caches environment variable values. This test modifies an environment variable using monkeypatch, but it doesn't clear the cache.',这可能导致测试不可靠。作者 jperezdealgaba 回复 'This was addressed',表明问题已修复,代码中可见添加了缓存清除逻辑。讨论聚焦于测试正确性,确保隔离和可靠性,无重大争议。
参与讨论