#30156 feat: add TxtSlicesDataset to allow sampling slices from txt file for benchmarking

vllm-project/vllm · 作者 jdebache · 合并时间 2026-04-14 17:20

分析状态已生成

文件变更 6提交数 10 · 评论 57

代码增减 +870 / -142

feature frontend performance v1

执行摘要

新增 TxtSlicesDataset 数据集，允许从 txt 文件采样切片以改进基准测试的数据质量。

根据PR body描述，'Sampling randomly directly from a tokenizer for benchmarking creates data that is not ideal to benchmark when using speculative decoding or expert parallelism. On the other hand, random datasets are very flexible and offer complete control on the input and output sequence lengths, which is desirable to create reproducible benchmarks. This PR introduces a new type of benchmarking dataset called TxtSlicesDataset which offers a compromise between the flexibility of a random dataset and the fidelity of a real dataset.' 核心目标是提供一种更贴近真实数据但保持可复现性的基准测试数据生成方式。

该PR值得精读，特别是设计决策：如何平衡数据真实性和可复现性，以及review中的讨论展示了团队对代码侵入性和可维护性的权衡。关注 get_sampling_params 函数的重构和 RangeRatio 类型的引入，这些通用性改进可应用于其他数据集类型；同时，学习妥协方案：将功能实现为外部脚本而非核心集成，以减少耦合。

讨论亮点

review中的核心讨论包括：1) DarkLight1337质疑TxtSlicesDataset与现有CustomDataset的重叠，提出使用外部脚本生成JSONL以避免侵入性变更；作者jdebache强调发现性和易用性，最终妥协为将TxtSlicesDataset实现为包装器，不直接改变 sample 方法。2) gemini-code-assist[bot]指出空令牌列表和随机数生成器隔离问题，导致添加了验证和专用 random.Random 实例。3) cursor[bot]发现未使用的参数和潜在验证缺失，在后续提交中修复。讨论结论包括：支持JSON字典作为 range_ratio 参数，保持向后兼容；限制变更范围，避免不必要的类型重构。

实现拆解

实现拆解为四个主要部分：1) 新增 vllm/benchmarks/datasets/create_txt_slices_dataset.py，提供命令行工具从txt文件生成JSONL格式的数据集，供CustomDataset使用；2) 新增 vllm/benchmarks/datasets/utils.py，提取共享的 get_sampling_params 函数，支持通过 RangeRatio 类型独立控制输入和输出长度范围比例；3) 重命名并更新 vllm/benchmarks/datasets/datasets.py，修复类型注解，调整随机数据集参数处理以兼容新功能；4) 添加测试文件 tests/benchmarks/test_sampling_params.py 和 tests/benchmarks/test_txt_slices_dataset.py，验证抽样逻辑和数据集成正确性。

文件	模块	状态	重要度
`vllm/benchmarks/datasets/create_txt_slices_dataset.py`	benchmarks/datasets	added	7.0
`vllm/benchmarks/datasets/utils.py`	benchmarks/datasets	added	6.0
`tests/benchmarks/test_txt_slices_dataset.py`	tests/benchmarks	added	5.0
`vllm/benchmarks/datasets/datasets.py`	benchmarks/datasets	renamed	4.0

分析完成后，这里会展示 LLM 生成的相对完整源码片段和详细注释。

关键符号

create_txt_slices_jsonl get_sampling_params _resolve_range_ratios

评论区精华

是否将 TxtSlicesDataset 集成到 vLLM 核心 vs 使用外部脚本 设计

DarkLight1337 提出：'I feel that the current changes are too intrusive for a single dataset type that's relatively niche. I could accept this PR if you make the TxtSlicesDataset a wrapper over the JSONL dataset without having to change sample.' 作者 jdebache 回应强调发现性和易用性，最终妥协为生成 JSONL 脚本。

结论：决定将 TxtSlicesDataset 实现为包装器，通过独立脚本生成 JSONL 供 CustomDataset 使用，减少了代码侵入性。 · 已解决

空令牌列表检查以防止崩溃 正确性

gemini-code-assist[bot] 指出：'The code tokenizes the text but doesn't handle the case where the tokenization results in an empty list of tokens... This will lead to a ValueError.'

结论：在 `create_txt_slices_jsonl` 中添加了验证，如果令牌列表为空则抛出 ValueError，确保健壮性。 · 已解决

随机数生成器隔离以确保可复现性 性能

gemini-code-assist[bot] 建议：'Using random.seed() seeds the global random number generator, which can lead to non-reproducible benchmarks... To ensure reproducibility and avoid side effects, it's better to use a dedicated random.Random instance.'

结论：更改为使用 `self.rng` 实例，如 `self.rng.randint()`，提升基准测试的可复现性。 · 已解决

风险与影响

技术风险包括：1) 兼容性风险：新增 RangeRatio 类型和参数可能影响现有基准测试脚本，但通过支持浮点数和字典格式保持向后兼容。2) 正确性风险：review中提到的空令牌列表检查（如文本文件仅含空白）和输入长度验证不足可能导致崩溃，已在 create_txt_slices_jsonl 和 get_sampling_params 中添加验证。3) 性能风险：文件I/O和随机采样可能轻微影响基准测试性能，但通过种子确保可复现性，且数据生成过程独立于推理核心路径。4) 测试覆盖风险：新增测试验证了基本功能，但未覆盖所有边缘情况，如大文件或网络URL加载。

对用户影响：基准测试用户现在可以使用txt文件生成更真实的数据集，提升测试质量，特别是在推测解码和专家并行等数据敏感场景下；对系统影响：新增模块增加了代码库复杂性，但通过模块化设计和测试覆盖减少了维护负担；对团队影响：提供了更灵活的基准测试数据生成方式，促进性能优化和调试工作，同时review讨论增强了代码设计共识。

输入长度验证缺失外部文件依赖随机数生成器隔离

关联 Issue

未识别关联 Issue

当前没有检测到明确关联的 Issue 链接，后续同步到相关引用后会出现在这里。

完整报告

执行摘要

一句话：新增TxtSlicesDataset数据集，允许从txt文件采样切片以改进基准测试的数据质量。
推荐动作：该PR值得精读，特别是设计决策：如何平衡数据真实性和可复现性，以及review中的讨论展示了团队对代码侵入性和可维护性的权衡。关注 get_sampling_params 函数的重构和 RangeRatio 类型的引入，这些通用性改进可应用于其他数据集类型；同时，学习妥协方案：将功能实现为外部脚本而非核心集成，以减少耦合。

功能与动机

实现拆解

关键文件：

vllm/benchmarks/datasets/create_txt_slices_dataset.py（模块 benchmarks/datasets）: 核心实现文件，提供从txt文件生成JSONL数据集的脚本，是TxtSlicesDataset功能的主要入口，支持命令行使用。
vllm/benchmarks/datasets/utils.py（模块 benchmarks/datasets）: 包含共享的抽样逻辑函数 get_sampling_params，引入 RangeRatio 类型支持独立输入输出范围比例，重构提升了代码复用性和可维护性。
tests/benchmarks/test_txt_slices_dataset.py（模块 tests/benchmarks）: 测试新数据集的正确性和功能，验证JSONL生成和与CustomDataset的集成，确保实现符合预期。
vllm/benchmarks/datasets/datasets.py（模块 benchmarks/datasets）: 数据集基类和参数处理更新，影响现有随机数据集类型的抽样行为，修复了类型注解和参数传递问题。

关键符号：create_txt_slices_jsonl, get_sampling_params, _resolve_range_ratios

评论区精华

是否将TxtSlicesDataset集成到vLLM核心 vs 使用外部脚本 (design): 决定将TxtSlicesDataset实现为包装器，通过独立脚本生成JSONL供CustomDataset使用，减少了代码侵入性。
空令牌列表检查以防止崩溃 (correctness): 在 create_txt_slices_jsonl 中添加了验证，如果令牌列表为空则抛出 ValueError，确保健壮性。
随机数生成器隔离以确保可复现性 (performance): 更改为使用 self.rng 实例，如 self.rng.randint()，提升基准测试的可复现性。

风险与影响

风险：技术风险包括：1) 兼容性风险：新增 RangeRatio 类型和参数可能影响现有基准测试脚本，但通过支持浮点数和字典格式保持向后兼容。2) 正确性风险：review中提到的空令牌列表检查（如文本文件仅含空白）和输入长度验证不足可能导致崩溃，已在 create_txt_slices_jsonl 和 get_sampling_params 中添加验证。3) 性能风险：文件I/O和随机采样可能轻微影响基准测试性能，但通过种子确保可复现性，且数据生成过程独立于推理核心路径。4) 测试覆盖风险：新增测试验证了基本功能，但未覆盖所有边缘情况，如大文件或网络URL加载。
影响：对用户影响：基准测试用户现在可以使用txt文件生成更真实的数据集，提升测试质量，特别是在推测解码和专家并行等数据敏感场景下；对系统影响：新增模块增加了代码库复杂性，但通过模块化设计和测试覆盖减少了维护负担；对团队影响：提供了更灵活的基准测试数据生成方式，促进性能优化和调试工作，同时review讨论增强了代码设计共识。
风险标记：输入长度验证缺失, 外部文件依赖, 随机数生成器隔离

关联脉络

PR #39572 [Misc] Multi-turn benchmark output performance json: 同为基准测试数据生成和输出功能，涉及性能数据导出和JSON处理，与本PR的TxtSlicesDataset在基准测试工具链中互补。

支持 Prhub ♥

#30156 feat: add TxtSlicesDataset to allow sampling slices from txt file for benchmarking

执行摘要

新增 TxtSlicesDataset 数据集，允许从 txt 文件采样切片以改进基准测试的数据质量。

实现拆解

评论区精华

风险与影响

关联 Issue

未识别关联 Issue

完整报告

执行摘要

功能与动机

实现拆解

评论区精华

风险与影响

关联脉络

参与讨论