回答

问题的历史

从Python 2.4开始，Python增加了所谓的“生成器表达式”来补充列表表达式（list comprehensions）。它们允许创建一个懒惰的值序列，类似于生成器，但以紧凑且易读的形式。

问题

列表表达式（[x for x in iterable]）会立即将所有元素加载到内存中，从而创建一个列表。如果元素数量非常大，这种方式效率低下，甚至可能是危险的。生成器函数（使用yield）更加灵活，但需要单独定义函数，并且需要更多的代码行。

解决方案

生成器表达式（(x for x in iterable)）提供了一种简洁的语法来生成懒惰序列（元素在需要时计算，而不是一次性加载所有）。它的外观与列表表达式相似，但使用圆括号：

# 列表表达式加载所有内容到内存中
squares_list = [x**2 for x in range(10**6)]

# 生成器表达式：元素按需提供，几乎不使用内存
squares_gen = (x**2 for x in range(10**6))

# 获取生成器的前五个值
for _ in range(5):
    print(next(squares_gen))

关键特性：

生成器表达式不会立即将整个集合加载到内存中
用于需要任何可迭代对象的地方（例如，在sum()、max()、any()中）
语法紧凑，不需要单独定义函数

有陷阱的问题。

可以多次“遍历”同一个生成器表达式吗？

不可以，经过一次迭代后，生成器“耗尽”。要重新遍历，必须创建一个新的生成器或使用列表表达式。

it = (x for x in range(3))
print(list(it))  # [0,1,2]
print(list(it))  # [] - 无法再获取值

生成器在使用之间会保留状态吗？

是的，生成器表达式在调用next()（或在下一次迭代时）之间保持“位置”，但无法重置为起始位置，除非创建一个新对象。

可以在一行中多次使用生成器表达式吗？

不可以！如果您在多个地方“解包”生成器（例如，在多个函数中，同时不将其返回到列表中），部分数据将丢失——每次子使用都会向前推动指针。

g = (x for x in range(3))
print(sum(g), list(g))  # sum(g) 会获取所有，list(g) 会返回空

常见错误和反模式

在需要整个集合的情况下使用生成器表达式——这会导致一次使用后数据丢失
传递“耗尽”的生成器而不是新生成器（您将收到空集合）

实际案例

消极案例

在大型文件分析项目中使用了：

data = (parse_line(line) for line in file)
process(list(data))
other_process(list(data))

优点：

代码易于根据任何数据进行修改

缺点：

在第一次调用list(data)后，生成器结束，数据仅传递给第一个处理器，第二个处理器无法获得任何数据

积极案例

如果需要重复使用数据，则使用列表推导，或为了单次消费而创建生成器：

# 生成器仅用于一次分析（例如，计算总和）
total = sum(parse_line(line) for line in file)