前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Scrapy报错 Connection was closed 解决方法

Scrapy报错 Connection was closed 解决方法

作者头像
小歪
发布2018-11-23 10:52:11
4.6K0
发布2018-11-23 10:52:11
举报
文章被收录于专栏:Python爬虫与算法进阶

发现问题

今天复原一个古老项目时,一直遇到了一个问题,Scrapy一直提示下载某链接时出错了,报错信息如下:

代码语言:javascript
复制
[<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]

这个错误以前也遇到过,但是并不知道如何去解决,去Google,有人说是加UA头,有人说是代理问题,专门用curl去测试代理,发现代理是OK的。

然后去检查UserAgent,试过各种发现均不行,

代码语言:javascript
复制
headers = {
    'User-Agent': "xxxxx",
    'Content-Type': "text/plain; charset=UTF-8",
    'Host': "xxxx",
    'Cache-Control': "no-cache",}

最后发现是Host不对,注释Host之后,发现就可以正常的采集数据了。然后重新抓包看了下该请求,发现Host已经更换,由于对Host不熟,所以专门写一篇来记录下,顺便复习下HTTP协议。

Host 字段

Host说明

服务器的域名(用于虚拟主机 ),以及服务器所监听的传输控制协议端口号。如果所请求的端口是对应的服务的标准端口,则端口号可被省略。自超文件传输协议版本1.1(HTTP/1.1)开始便是必需字段。

Host 示例

代码语言:javascript
复制
Host: en.wikipedia.org:80
Host: en.wikipedia.org

状态为:常设

来源:HTTP头字段

这篇文章讲的很清楚:网络---一篇文章详解请求头Host的概念

https://blog.csdn.net/netdxy/article/details/51195560

总结

  1. host字段可以是域名,也可以是ip地址。host字段域名/ip后可以跟端口号,如Host: www.6san.com:8080
  2. host可以由程序自定义,某些程序为了防止运营商或防火墙拦截会定义虚假host
  3. http1.1中host字段可以是空值,http1.0中可以缺失host字段
  4. http响应头中不包含host字段,所以wireshark中http.host过滤到的都是请求包
  5. 因为http头中的host字段可以由程序自定义,所以host字段的值就会有很多特殊情况,如包含多个’/'字符的HOST头信息,结尾含有”.”等

在http 1.1中不能缺失host字段,如果缺失,,服务器返回400 bad request,http1.1中不能缺失host字段,但host字段可以是空值。

本文参与?腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-24,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与算法进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体同步曝光计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 发现问题
  • Host 字段
  • Host说明
  • Host 示例
  • 总结
相关产品与服务
轻量应用服务器
轻量应用服务器(TencentCloud Lighthouse)是新一代开箱即用、面向轻量应用场景的云服务器产品,助力中小企业和开发者便捷高效的在云端构建网站、Web应用、小程序/小游戏、游戏服、电商应用、云盘/图床和开发测试环境,相比普通云服务器更加简单易用且更贴近应用,以套餐形式整体售卖云资源并提供高带宽流量包,将热门软件打包实现一键构建应用,提供极简上云体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com