看看最近的新闻都知道Tumblr将在12月17日起下架所有成人内容。具体信息如下,内容来自官网
写了一个爬虫,可以下载Tumblr指定博主的资源,放在了以前的awesome_crawl中,会在阅读原文中给出地址。
用法:python tumblr_spider.py username
username就是你选中的博主,如果需要下载多位,可以用,分割。如 python tumblr_spider.py user1,use2,use3
代码很简单,可以自行查看源代码。需要注意,Tumblr需要访问外国网站,比如我用的是ss,选择Copy HTTP Proxy Shell Export Line,然后将代理在get_proxy()
函数中设置。
有意思的是写了一个公用的方法,代码如下:
class Session(object):
def __init__(self):
self.session = requests.session()
self.session.proxies.update(get_proxy())
self.session.headers.update(headers)
def get(self, url, **kwargs):
retry_times = 0
while True:
try:
res = self.session.get(url, **kwargs)
return res
except Exception:
retry_times += 1
if retry_times > 20:
return None
else:
continue
这样,在使用的时候就比较方便,直接实例化一个session对象,各种方法可以使用调用get添加。因为我这里没有需要使用post方法,如果有需要可以使用同样的方法来实现此功能。
其实Tumblr中有很多很有趣的东西,比如:
还有
为啥突然会有这个决定呢?
你们说,是不是要来中国了
本文分享自 Python爬虫与算法进阶 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与?腾讯云自媒体同步曝光计划? ,欢迎热爱写作的你一起参与!