设想这样一个场景:
你创建了10个子线程,每个子线程分别爬一个网站,一开始所有子线程都是阻塞等待。一旦某个事件发生:例如有人在网页上点了一个按钮,或者某人在命令行输入了一个命令,10个爬虫同时开始工作。
肯定有人会想到用Redis来实现这个开关:所有子线程全部监控Redis中名为start_crawl的字符串,如果这个字符串不存在,或者为0,那么就等待1秒钟,再继续检查。如果这个字符串为1,那么就开始运行。
代码片段可以简写为:
- import time
- import redis
- client = redis.Redis()
- while client.get('start_crawl') != 1:
- print('继续等待')
- time.sleep(1)
这样做确实可以达到目的,不过每一个子线程都会频繁检查Redis。
实际上,在Python的多线程中,有一个Event模块,天然就是用来实现这个目的的。
Event是一个能在多线程中共用的对象,一开始它包含一个为False的信号标志,一旦在任一一个线程里面把这个标记改为True,那么所有的线程都会看到这个标记变成了True。
我们通过一段代码来说明它的使用方法:
- import threading
- import time
- class spider(threading.Thread):
- def __init__(self, n, event):
- super().__init__()
- self.n = n
- self.event = event
- def run(self):
- print(f'第{self.n}号爬虫已就位!')
- self.event.wait()
- print(f'信号标记变为True!!第{self.n}号爬虫开始运行')
- eve = threading.Event()
- for num in range(10):
- crawler = spider(num, eve)
- crawler.start()
- input('按下回车键,启动所有爬虫!')
- eve.set()
- time.sleep(10)
运行效果如下图所示:
在这段代码中,线程spider在运行以后,会运行到self.event.wait()这一行,然后10个子线程会全部阻塞在这里。而这里的self.event,就是主线程中eve = threading.Event()生成的对象传入进去的。
在主线程里面,当执行了eve.set()后,所有子线程的阻塞会被同时解除,于是子线程就可以继续运行了。
本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。
年味到底是什么?不同的时代,人们迎接春节的方式也在变换。 在70后的眼里,年味...
数据目录已成为企业数据管理策略的重要组成部分,但选择合适的数据目录并不是简...
?又到一年毕业季,即将开启(实习及正式)职场生涯的同学们会有不少疑惑。比如,...
我们将创建以下三个Shell脚本来锁定和解锁多个帐户和查看账号状态。 创建锁定用...
作者 许力 阿里云原生多模数据库Lindorm与东软云科技推出联合解决方案 共建面向...
1.男女之间是真的可以有纯友谊的,只要一个打死不说一个装傻到底。 2.不要迷恋...
1.我手机掉进厕所了怎么办?是屎在给我发信息吗? 2.生活就像新闻联播,不是换...
新冠肺炎疫情的全球大流行不仅深刻影响了世界政治经济格局的发展演进,而且加速...
1.世界上最悲哀的事莫过于睡眠不足,尤其是在感冒的时候。 2.我是一个很有原则...
Knative 是基于 Kubernetes 的开源 Serverless 应用编排框架。阿里云 Knative 在...