当前位置：主页 > 查看内容

【python零基础爬虫入门】，爬取百度图片，小孩子也能学会

发布时间：2021-08-20 00:00| 有位朋友查看

简介：【python零基础爬虫入门】爬取百度图片小孩子也能学会先上效果图需要头文件 import re import requests import os 因为爬虫需要用到请求网络部分所以需要这两个包没有的话自行下载即可。请求头 headers { User-Agent : Mozilla/5.0 (Windows NT 10.0; Win……

【python零基础爬虫入门】，爬取百度图片，小孩子也能学会

先上效果图
在这里插入图片描述
需要头文件

import re
import requests
import os

因为爬虫需要用到请求网络部分，所以需要这两个包，没有的话自行下载即可。

请求头

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'

完整的请求

url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=='+name+'+&pn='+str(i*30)
        result = requests.get(url,headers=headers)
        dowmloadPic(result.content.decode(), name)

得到了html之后需要用到正则表达式

 pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

最后直接把请求到的图片下载好就行

 fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()

完整代码：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
import requests
import os


def dowmloadPic(html, keyword,i):
    pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
   
    abc=i*60
    print('找到关键词:' + keyword + '的图片，现在开始下载图片...')
    for each in pic_url:
        print('正在下载第' + str(abc) + '张图片，图片地址:' + str(each))
        try:
            pic = requests.get(each, timeout=10)
        except requests.exceptions.ConnectionError:
            print('【错误】当前图片无法下载')
            continue

        dir = r'D:\image\i' + keyword + '_' + str(abc) + '.jpg'
        if not os.path.exists('D:\image'):
            os.makedirs('D:\image')
        
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
        abc += 1


if __name__ == '__main__':
    #word = input("Input key word: ")
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'}
    name = input('输入下载图片的名字')
    num = 0
    x = input('您要爬取几张呢?，n*60')

    for i in range(int(x)):
        url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=='+name+'+&pn='+str(i*30)
        result = requests.get(url,headers=headers)
        dowmloadPic(result.content.decode(), name,i)
print("下载完成")

有想学爬虫的小伙伴也可以找我交流一下。

；原文链接：https://blog.csdn.net/weixin_57171554/article/details/115904755
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：图书馆操作管理系统 下一篇：没有了

随机推荐

初学java常用开发工具介绍

Java的应用越来越广泛，学习Java的人也越来越多。学过程序设计的人知道，使用Bas...
C++利用二分法搜索旋转数组的旋转点或目

看题题目很容易看明白无非就是查找数组最小值而无论他旋转多少次其实都等于在固...
你会用while(1)还是for(;;)写循环代码？

看代码看到for(;;)，然后觉得为什么不写成while(1)呢，所以就做了下面的测试。 ...
2021杭电计算机考研数一英一408专业课考

2021杭电计算机考研数一英一408专业课考研经验贴前言考研准备教材其他打基...
Laravel5.1 框架Middleware中间件基本用

本文实例讲述了Laravel5.1 框架Middleware中间件基本用法。分享给大家供大家参考...
ASP把长的数字用逗号隔开显示的代码

000000000000000000000000000000000000000000000000000000000000000 复制代码代...
ajax实现修改功能

这段时间在做项目，发现自己忘得好快呀，幸亏有博客园帮我记着呢，整理博客园简...
如何让我的应用自动填写短信验证码？

问题分享华为开发者论坛上有开发者向我们咨询想要实现应用自动填写短信验证码...
解决ajax返回验证的时候总是弹出error错

发一个简单案例：前台： %@ page language="java" import="java.util.*" pageEn...
html文件中flash视频格式(flv、swf)文件

flash文件的格式：.FLV 和 .SWF flash视频格式有两种扩展名可以使用：.flv和.swf...

【python零基础爬虫入门】，爬取百度图片，小孩子也能学会

【python零基础爬虫入门】，爬取百度图片，小孩子也能学会

推荐图文

使用富文本编辑器上传图片实例详解

聊聊Apt 和 Apt-Get 之间的区别是啥？

.NET Core中Object Pool的多种用法详解

警惕，Mybatis的Size()方法竟然有坑！

网页HTML 有序列表ol 和无序列表 ul

HTML Form表单元素全面了解

随机推荐

初学java常用开发工具介绍

C++利用二分法搜索旋转数组的旋转点或目

你会用while(1)还是for(;;)写循环代码？

2021杭电计算机考研数一英一408专业课考

Laravel5.1 框架Middleware中间件基本用

ASP把长的数字用逗号隔开显示的代码

ajax实现修改功能

如何让我的应用自动填写短信验证码？

解决ajax返回验证的时候总是弹出error错

html文件中flash视频格式(flv、swf)文件

关于我们