Tumblr爬虫——下载指定博主资源

小歪

发布于 2018-12-26 15:53:56

1.2K0

发布于 2018-12-26 15:53:56

文章被收录于专栏：Python爬虫与算法进阶

看看最近的新闻都知道Tumblr将在12月17日起下架所有成人内容。具体信息如下，内容来自官网

写了一个爬虫，可以下载Tumblr指定博主的资源，放在了以前的awesome_crawl中，会在阅读原文中给出地址。

用法：python tumblr_spider.py username

username就是你选中的博主，如果需要下载多位，可以用,分割。如 python tumblr_spider.py user1,use2,use3

代码很简单，可以自行查看源代码。需要注意，Tumblr需要访问外国网站，比如我用的是ss，选择Copy HTTP Proxy Shell Export Line，然后将代理在get_proxy()函数中设置。

有意思的是写了一个公用的方法，代码如下：

class Session(object):
    def __init__(self):
        self.session = requests.session()
        self.session.proxies.update(get_proxy())
        self.session.headers.update(headers)

    def get(self, url, **kwargs):
        retry_times = 0
        while True:
            try:
                res = self.session.get(url, **kwargs)
                return res
            except Exception:
                retry_times += 1
                if retry_times > 20:
                    return None
                else:
                    continue

这样，在使用的时候就比较方便，直接实例化一个session对象，各种方法可以使用调用get添加。因为我这里没有需要使用post方法，如果有需要可以使用同样的方法来实现此功能。

其实Tumblr中有很多很有趣的东西，比如：