前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python简单爬虫

python简单爬虫

原创
作者头像
用户7999227
修改2021-09-23 11:05:26
2390
修改2021-09-23 11:05:26
举报
文章被收录于专栏:Java小王子Java小王子

[Python]代码????

代码语言:javascript
复制
import re
import urllib
import urllib.request
from collections import deque

queue = deque()#存放待爬取的网址
visited = set()#存放爬取过的网址。判断是否爬取过

url = "http://news.dbanotes.net"#入口网站
queue.append(url)
count = 1

while queue:
    url = queue.popleft()#删除已经爬取过的队首的网址url
    visited |= {url}#把已经爬取过的页面放入set中,方便下面的判断
    urlop = urllib.request.urlopen(url)
    if 'html' not in urlop.getheader('Content-Type'):
        continue#如果是html再继续爬取
    try:
        data = urlop.read().decode('utf-8')
    except:
        continue
    value = re.findall(r'href="(.+?)"',data)
    for x in value:
        if 'http' in x and x not in visited:
            print("加入队列:" + x)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • [Python]代码????
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com