Python生成器的力量：用流式处理重构AI训练数据管线

8次阅读

共计 3446 个字符，预计需要花费 9 分钟才能阅读完成。

对于多数Python AI开发者来说，生成器（Generator）或许只是“用yield代替return”的语法糖。但在2025-2026年的实践中，我越来越发现，生成器才是构建高效、可扩展AI数据管线的秘密武器。尤其在处理GB级甚至TB级数据集时，惰性求值（Lazy Evaluation）与流式处理的能力直接决定了训练效率的上限。

生成器的底层原理并不复杂：每当函数遇到yield，它会暂停执行并保存当前栈帧（包括局部变量、指令指针），下次调用next()时恢复。这个机制天然适合数据管线——我们不需要将整个数据集塞进内存，而是按需逐条或逐批生产数据。这正是torch.utils.data.DataLoader的dataset接口得以高效工作的基础：它把数据源包装成一个可迭代对象，配合多进程预取，实现GPU与CPU的流水线并行。

但很多开发者止步于使用内置DataLoader，却不知道如何利用生成器自定义高级管线。下面我会从无限流采样、动态数据增强、多进程生成器组合三个经典场景，带你看懂生成器如何“柔化”数据供给。

在模型持续迭代的训练中，我们常遇到类不平衡或需要在线难例挖掘的问题。传统做法是预先打乱数据集并切分epoch，但这样数据分布会重复曝光，导致过拟合。而生成器可以轻松实现无限循环采样：

def infinite_balanced_sampler(dataset, weights):
    while True:
        idx = random.choices(range(len(dataset)), weights=weights, k=1)[0]
        yield dataset[idx]

这个生成器永远不会抛出StopIteration，可被itertools.islice或zip截断使用。更进阶的用法是结合动态权重调整——根据模型实时的预测置信度更新采样分布，让生成器成为“在线难例挖掘”的天然载体。你可以在每个step后，通过一个回调修改生成器内部引用的权重列表，甚至用send()方法动态注入外部信号。

需要注意的是，生成器的send()和throw()方法在多层嵌套时可能带来复杂性。一个实用的最佳实践是封装为可重置生成器类：用__iter__ + __next__模仿生成器接口，同时保留reset()方法用于重新初始化内部状态。2025年的PyTorch 2.5+已经将此类模式内置为IterableDataset的扩展，直接支持动态数据源。

数据增强（如随机裁剪、颜色抖动）通常作为单独的转换函数，但如果你想实现流式增强——即增强操作与采样交错执行，减少中间存储——生成器的组合能力就大放异彩。yield from是Python 3.3引入的关键语法，它允许一个生成器委托另一个生成器：

def random_crop(gen, crop_size):
    for image, label in gen:
        # 实时裁剪
        h, w = image.shape[:2]
        top = random.randint(0, h - crop_size)
        left = random.randint(0, w - crop_size)
        yield image[top:top+crop_size, left:left+crop_size], label

def color_jitter(gen, brightness=0.2):
    for image, label in gen:
        # 实时亮度调整（Numpy操作，异步无阻塞）
        yield image * (1 + random.uniform(-brightness, brightness)), label

# 组合成管线
data_flow = color_jitter(random_crop(infinite_balanced_sampler(dataset, weights), 224))

这个模式与Unix管道异曲同工：每个生成器只负责一个变换，且不缓存中间结果。当与多进程结合时，需要注意Python的GIL限制。2026年，异步生成器（async def + yield）已经非常成熟，可以轻松搭配asyncio.to_thread将CPU密集型增强放到线程池，同时保持事件循环不被阻塞。例如：

async def async_crop(gen):
    loop = asyncio.get_event_loop()
    async for image, label in gen:
        yield await loop.run_in_executor(None, random_crop_fn, image, label)

这种“异步+同步混合”的设计，让数据增强与模型前向传播在时间上完美重叠，2025-2026年的主流框架（如PyTorch Lightning 2.2+）已经深度集成这类AsyncDataLoader概念。

虽然DataLoader的num_workers参数很方便，但在需要动态调整batch size、跨worker共享状态或实现高级负采样时，它显得笨拙。我们可以直接用multiprocessing.Queue + 生成器手写一个轻量级数据供应系统：

def worker_fn(queue, dataset, idx_range):
    for i in idx_range:
        # 模拟耗时预处理
        processed = heavy_preprocess(dataset[i])
        queue.put(processed)
    queue.put(None)  # 哨兵

def multiprocess_generator(dataset, num_workers=4):
    queues = [Queue(maxsize=50) for _ in range(num_workers)]
    workers = []
    # 分割索引
    chunk_size = len(dataset) // num_workers
    for i in range(num_workers):
        start = i * chunk_size
        end = start + chunk_size if i < num_workers-1 else len(dataset)
        p = Process(target=worker_fn, args=(queues[i], dataset, range(start, end)))
        p.start()
        workers.append((p, queues[i]))

    finished = 0
    while finished < num_workers:
        for q in queues:
            if not q.empty():
                item = q.get_nowait()
                if item is None:
                    finished += 1
                else:
                    yield item
    for p, _ in workers:
        p.join()

这个生成器将数据生产完全交给子进程，主进程只负责消费yield。你可以在此基础上扩展：用PriorityQueue实现难例优先级，用Manager实现跨进程共享计数器，甚至用torch.multiprocessing的共享内存减少数据拷贝。2025年后的PyTorch社区已经涌现出许多此类自定义生成器数据管线工具库，比如torchdata的DataPipe就是生成器思想的官方实现，但底层封装得过于厚重，反而失去了生成器本身的简洁美感。

要用生成器封装所有惰性数据源，而不是提前加载列表。这能节省80%以上的内存。
要善用itertools模块（如chain, islice, cycle）组合生成器，避免手写循环。
要在生成器内部捕获异常并优雅退出（例如finally中关闭文件句柄），防止资源泄漏。
不要在生成器内执行过重的同步IO（如磁盘读取），应委托给异步或进程池。
不要在生成器之间传递大对象时频繁复制，考虑使用memoryview或共享内存。
不要过度嵌套生成器导致调试困难——每个生成器职责单一，并添加清晰的docstring。

我在2025年初的一个大模型微调项目中，将原本100+GB的原始多模态数据流式化，用上述生成器组合将单机训练吞吐量提升了2.3倍。生成器不是银弹，但当你理解了它的暂停/恢复哲学，你会发现它能优雅地解决90%的数据供给问题。下次当你面对一个数据处理管线时，不妨先问问自己：“这里能用yield吗？”

正文完

发表至： Python与工具

2026-05-14

0