文章/答案/技术大牛

发布

【Python基础】Python中的「yield」：生成器的陷阱，你中招了吗？

文章来源：企鹅号 - real南风以南

第1章引言与背景知识

1.1 Python中的迭代器与生成器概念

在Python编程语言中，迭代器（Iterator）与生成器（Generator）是两个核心的概念，它们在处理序列数据时扮演着至关重要的角色。迭代器是一种设计模式，它允许我们以一种一致的方式遍历不同类型的集合（如列表、元组、集合、字典等），而无需关心其内部实现细节。生成器则是Python中实现迭代器的一种高效且优雅的方法，它利用yield关键字来简化迭代过程，并带来内存效率和代码可读性的双重提升。

1.1.1 迭代器概念

一个对象如果实现了__iter__()方法和__next__()方法，并且__next__()方法在没有更多元素时抛出StopIteration异常，那么这个对象就被称为迭代器。简单来说，迭代器提供了顺序访问集合中元素的能力，而无需暴露集合的内部结构。例如，当我们对一个列表进行for循环时，Python会隐式地调用这些方法来逐个获取并处理元素：

fruits?=?['apple',?'banana',?'cherry']

for?fruit?in?fruits:

print(fruit)

在这个例子中，fruits列表就是一个可迭代对象，Python内部会创建一个迭代器对象来依次取出每个元素。

1.1.2 生成器概念与yield关键字

生成器是一种特殊的迭代器，但它不是通过定义__iter__()和__next__()方法来实现，而是使用def关键字定义一个包含yield语句的函数。当调用这样的函数时，不会立即执行函数体，而是返回一个生成器对象。每次通过next()函数（或for循环）请求下一个值时，函数从上次暂停的地方继续执行，直到遇到下一个yield表达式，该表达式的值作为结果返回，并再次暂停执行。

生成器的优势在于：

?内存效率：生成器仅在需要时生成下一个值，而非一次性生成整个数据集，这对于处理大规模或无限序列时特别重要。

?简洁的代码：生成器函数将复杂的迭代逻辑封装在一个地方，使得代码更易于阅读和维护。

下面是一个简单的生成器示例，它生成斐波那契数列：

def?fibonacci(n):

a,?b?=?0,?1

for?_?in?range(n):

yield?a

a,?b?=?b,?a?+?b

#?使用生成器

for?num?in?fibonacci(10):

print(num)1.2?yield关键字的引入与价值

yield关键字是Python中用于定义生成器的关键组件，它的引入极大地丰富了Python对于迭代和流式数据处理的能力。yield不仅简化了迭代器的编写过程，还带来了以下几个显著的价值：

1.延迟计算与惰性求值：生成器按需生成值，避免一次性加载大量数据到内存，特别是在处理大数据或无限序列时，极大地节省了资源。

2.协程支持：虽然本章不深入探讨，但yield也是Python实现协程（coroutine）的基础。协程允许函数在执行过程中暂停并恢复，这对于构建高并发、低延迟的异步程序至关重要。

3.简化代码结构：生成器函数可以将复杂的生成逻辑封装起来，使代码更易于理解和维护。相较于传统的返回列表的函数，生成器避免了在函数内部构建整个数据结构，从而降低了复杂度。

综上所述，Python中的迭代器与生成器概念，尤其是yield关键字的引入，极大地提升了处理序列数据的效率与灵活性。它们在现代Python编程中不可或缺，为开发者提供了强大而优雅的数据处理工具。

第2章 yield基本用法 ?

2.1 yield的基本语法与示例 ?

在Python中，yield关键字是生成器的核心。它允许函数成为可迭代的对象，而不必一次性产生所有结果。

2.1.1 yield语句在函数中的使用

不同于常规的return语句，yield在函数中标志着一个暂停点。当函数遇到yield时，它会暂停执行并记住当前状态，返回yield后的值给调用者。下次从该函数调用next()时，会从上次暂停的地方继续执行，直至遇到下一个yield。

def?simple_generator():

yield?'Hello'

yield?'World'

gen?=?simple_generator()

print(next(gen))??#?输出:?Hello

print(next(gen))??#?输出:?World2.1.2 yield与return的区别与联系

尽管yield和return都能从函数中产出值，它们的本质却大不相同。return用于结束函数执行并返回一个值，而yield则用于生成器中，每次调用时临时返回一个值并保持函数的状态，等待下一次调用继续执行。

2.2 yield生成器的创建与调用

2.2.1 创建生成器函数

要创建一个生成器，只需在函数中至少包含一个yield语句。当调用这样的函数时，不会立即执行函数体，而是返回一个生成器对象。

def?count_up_to(n):

i?=?1

while?i?<=?n:

yield?i

i?+=?1

counter?=?count_up_to(5)2.2.2 使用next()函数和for循环遍历生成器

生成器可以通过next()函数逐一获取值，也可以直接在for循环中使用。

print(next(counter))??#?输出:?1

print(next(counter))??#?输出:?2

#?或者使用for循环遍历

for?number?in?count_up_to(5):

print(number)2.3 yield与迭代协议的关系 2.3.1 迭代器协议概述

迭代器协议是Python中一系列规则的集合，任何遵循这些规则的对象都可被视为迭代器。主要涉及__iter__()方法（返回迭代器自身）和__next__()方法（返回下一个值或引发StopIteration）。

2.3.2 yield如何实现迭代器协议

yield关键字自动实现了迭代器协议的细节。当函数中包含yield时，Python会将其转换为一个特殊的迭代器类型，该类型自动包含了__iter__()和__next__()方法。这意味着，任何生成器函数无需显式定义这些方法就能成为迭代器。

通过yield，我们可以轻松地创建遵循迭代器协议的自定义迭代器，实现复杂的数据流控制，同时保持代码的简洁和高效。这一机制是Python中处理迭代操作的强大工具，广泛应用于数据处理、异步编程等领域。

第3章 yield进阶应用

3.1 yield from语句及其应用场景

3.1.1 yield from语法与示例

yield from语句是Python 3引入的一个高级特性，它简化了生成器之间的嵌套使用。当在一个生成器中使用yield from语句时，它会将另一个生成器的产出逐个“转发”到外部调用者，如同这些值是由当前生成器直接生成的一样。

def?sub_generator(start,?end):

for?i?in?range(start,?end):

yield?i?*?i

def?main_generator():

yield?from?sub_generator(1,?5)

yield?from?sub_generator(6,?10)

for?value?in?main_generator():

print(value)

这段代码中，main_generator通过两次yield from调用了sub_generator，将子生成器产生的平方数“合并”到主生成器的输出中。

3.1.2 yield from与嵌套生成器

yield from尤其适用于处理嵌套生成器的情况。在没有yield from的情况下，处理嵌套生成器通常需要显式地迭代子生成器并逐个yield其结果，这会导致代码冗余且难以维护。相比之下，yield from简洁地解决了这个问题，同时保留了子生成器的原生行为，如处理StopIteration异常等。

3.2 协程与异步编程中的yield

3.2.1 协程基础与asyncio模块简介

协程是一种特殊的生成器，它在异步编程中扮演关键角色，允许非阻塞的、协作式的执行多个任务。Python的asyncio模块提供了强大的异步I/O框架，支持基于协程的异步编程模型。

在asyncio中，协程使用async def定义，并通过await关键字暂停执行，等待异步操作完成。虽然本文重点讨论yield，但了解协程有助于理解yield在异步编程中的作用。

3.2.2 yield在协程中的作用与示例

尽管现代异步编程推荐使用async def和await，但在旧版本Python或某些特定场景中，yield仍可用于实现协程。例如，使用@types.coroutine装饰器将含有yield的生成器标记为协程，并通过yield from与异步操作交互。

from?types?import?coroutine

import?asyncio

@coroutine

def?old_style_coroutine():

response?=?yield?from?asyncio.sleep(1)

print('Coroutine?woke?up?after?1?second')

loop?=?asyncio.get_event_loop()

loop.run_until_complete(old_style_coroutine())

loop.close()

在这个示例中，yield from asyncio.sleep(1)暂停协程执行，等待异步的sleep操作完成。尽管如此，对于新的异步编程项目，建议使用async/await语法。

3.3 yield与生成器表达式对比分析

3.3.1 生成器表达式的定义与用法

生成器表达式是类似于列表推导式的简洁语法，用于创建生成器对象。它采用括号包围，内部结构与列表推导类似，但生成的是一个可迭代的生成器对象，而非列表。

squares?=?(i?*?i?for?i?in?range(10))

此生成器表达式生成一个包含前10个整数平方的生成器。

3.3.2 yield与生成器表达式的选择依据

选择使用yield定义生成器函数还是生成器表达式，主要取决于具体需求和代码风格偏好：

?复杂逻辑与状态管理：当需要实现包含复杂条件判断、循环或其他控制流的生成器，或者需要维护内部状态时，使用yield定义的生成器函数更为合适。

?简洁一次性生成：对于简单、一次性生成序列且不需要额外逻辑的场景，生成器表达式提供了更为简洁的写法。

综上所述，yield及其相关语法如yield from在Python中有着丰富的应用，不仅用于创建高效的迭代器，还在协程与异步编程中发挥重要作用。理解并恰当运用这些特性，有助于编写高性能、易读且适应多种场景的Python代码。

第4章 yield实际案例解析

4.1 数据流处理中的yield

4.1.1 文件逐行读取

处理大型文件时，使用yield逐行读取可以有效节省内存。这是因为yield按需加载数据，避免了一次性加载整个文件到内存中。

def?read_large_file(file_path):

with?open(file_path,?'r')?as?file:

for?line?in?file:

yield?line.strip()

for?line?in?read_large_file('data.txt'):

process(line)??#?假设process是处理每行数据的函数4.1.2 无限序列生成（如斐波那契数列）

yield能够轻松创建无限序列，例如生成斐波那契数列，仅需几行代码即可实现。

def?fibonacci():

a,?b?=?0,?1

while?True:

yield?a

a,?b?=?b,?a?+?b

#?打印前10个斐波那契数

for?num?in?itertools.islice(fibonacci(),?10):

print(num)4.2 Web爬虫中的yield ?4.2.1 使用yield实现高效网页抓取

在Web爬虫开发中，yield可以用来构造生成器，逐步提供抓取到的数据项，非常适合处理大量页面。

def?spider(url):

response?=?requests.get(url)

for?link?in?parse_links(response.text):

yield?{'link':?link}

for?item?in?spider('http://example.com'):

save_to_db(item)4.2.2 Scrapy框架中的yield实践

Scrapy框架利用yield来异步处理爬取的数据和请求，提高了爬虫的效率和可扩展性。

def?parse(self,?response):

for?href?in?response.css('a::attr(href)').getall():

yield?response.follow(href,?self.parse_page)4.3 人工智能与数据分析中的yield 4.3.1 在机器学习数据预处理中使用yield

数据预处理阶段经常需要对大量数据进行逐条处理，使用yield能有效减少内存占用，提高处理速度。

def?preprocess_data(data):

for?record?in?data:

cleaned_record?=?clean(record)

transformed_record?=?transform(cleaned_record)

yield?transformed_record

for?ready_data?in?preprocess_data(huge_dataset):

model.train(ready_data)4.3.2 pandas库中yield的应用

虽然pandas本身提供了强大的DataFrame操作，但在某些特定场景下，结合yield可以灵活处理数据流。

def?process_dataframe(df):

chunksize?=?1000

for?chunk?in?np.array_split(df,?len(df)?//?chunksize):

processed_chunk?=?perform_analysis(chunk)

yield?processed_chunk

for?chunk_result?in?process_dataframe(huge_df):

analyze_results(chunk_result)

通过这些实例，我们可以看到yield在不同的应用场景中展现出的灵活性和效率优势，从数据流处理到Web爬虫，再到AI与数据分析领域，它都是实现高效迭代和资源管理的重要工具。

第5章 yield常见问题与最佳实践 ?

5.1 yield使用中的常见误区与陷阱

5.1.1 对生成器生命周期的理解误区

生成器的生命期与其内部状态紧密相关。一旦生成器对象被创建，其内部状态将保持直到迭代完成或发生意外中断。一些开发者可能误认为生成器可以像普通函数那样多次重置或重新开始，但实际上，一旦生成器遍历完或遭遇StopIteration异常，就必须重新创建生成器对象才能再次迭代。

def?count_up_to(n):

i?=?1

while?i?<=?n:

yield?i

i?+=?1

gen?=?count_up_to(5)

for?_?in?gen:

pass??#?完全迭代

#?尝试再次迭代?，此时gen已耗尽

for?num?in?gen:

print(num)??#?不会输出任何内容

正确做法是在需要重新迭代时重新创建生成器：

for?_?in?count_up_to(5):??#?新生成器对象

pass5.1.2 yield与异常处理注意事项

在生成器中，捕获并处理异常需要特别注意。由于yield语句会使生成器暂停并在下一次迭代时恢复，异常可能在生成器内外部的不同位置触发。为了确保异常得到妥善处理，应在生成器函数内部使用try-except结构，并考虑是否需要通过raise将异常传递给调用者。

def?divide_sequence(numbers,?divisor):

try:

for?num?in?numbers:

if?divisor?==?0:

raise?ValueError("Divisor?cannot?be?zero")

yield?num?/?divisor

except?Exception?as?e:

print(f"An?error?occurred:?{e}")

#?可选：决定是否重新抛出异常

#?raise

for?result?in?divide_sequence([1,?2,?3],?0):

print(result)5.2 提高yield代码性能与可维护性的策略 5.2.1 合理利用生成器节省内存

生成器的核心优势在于其惰性计算特性，只在需要时生成数据，大大减少了内存占用。为了充分利用这一特性，确保生成器函数仅在必要时产生结果，避免不必要的数据累积。对于大型数据集或无限序列，优先选择生成器而非列表推导或直接返回列表。

#?低效：一次性加载所有数据到内存

def?load_data():

return?[process_record(record)?for?record?in?read_large_file()]

#?高效：逐条处理数据?，节省内存

def?load_data_gen():

for?record?in?read_large_file():

yield?process_record(record)5.2.2 yield在项目架构设计中的角色

在项目设计中，将yield视为数据流控制的关键工具。将其融入模块化设计，创建专门的生成器函数负责数据生成，与其他负责处理或消费数据的模块解耦。这样既便于代码维护，又能实现灵活的数据流配置和扩展。

#?数据生成模块

def?generate_data(config):

for?item?in?complex_data_source(config):

yield?preprocess(item)

#?数据处理模块

def?process_data(data_gen):

for?item?in?data_gen:

transformed_item?=?apply_transformations(item)

save_to_database(transformed_item)

#?组合使用

data_gen?=?generate_data(configuration)

process_data(data_gen)

综上所述，理解并规避yield使用中的常见误区，以及采取合理的性能优化与架构设计策略，有助于充分发挥yield在Python编程中的优势，提升代码质量和运行效率。

第6章总结

本文深入探讨了Python中的yield关键字及其在迭代器、生成器、协程等领域的应用。从yield基本语法与示例出发，详细阐述了其与return的区别，以及在创建与调用生成器中的核心作用。进一步剖析了yield from语句在简化生成器嵌套及异步编程中的价值。通过对实际案例的解析，展示了yield在数据流处理、Web爬虫、人工智能与数据分析中的高效实践。针对常见问题与最佳实践，指出了理解生成器生命周期、处理异常及合理利用生成器以节省内存的重要性。最后，强调了yield在Python生态系统中的核心地位及其对未来编程发展的深远影响，为读者规划了深入学习与探索的相关路径。

总结起来，yield作为Python中实现迭代与异步的关键工具，其在提升代码性能、简化数据流控制、以及应对大规模数据挑战等方面发挥了无可替代的作用。熟练掌握并运用yield，不仅是提升Python编程技能的必备环节，更是顺应现代编程趋势、应对复杂软件工程需求的有效手段。

发表于: 2024-04-232024-04-23 12:54:08
原文链接：https://page.om.qq.com/page/OFZyCFhiMZaPdrxIHi_Us2MQ0
腾讯「晃晃云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

【Python基础】Python中的「yield」：生成器的陷阱，你中招了吗？

相关快讯

扫码

社区

活动

圈层

关于

晃晃云开发者

热门产品

热门推荐

更多推荐