Scrapy报错 Connection was closed 解决方法

小歪

发布于 2018-11-23 10:52:11

4.6K0

发布于 2018-11-23 10:52:11

今天复原一个古老项目时，一直遇到了一个问题，Scrapy一直提示下载某链接时出错了，报错信息如下：

[<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]

这个错误以前也遇到过，但是并不知道如何去解决，去Google，有人说是加UA头，有人说是代理问题，专门用curl去测试代理，发现代理是OK的。

然后去检查UserAgent，试过各种发现均不行，

headers = {
    'User-Agent': "xxxxx",
    'Content-Type': "text/plain; charset=UTF-8",
    'Host': "xxxx",
    'Cache-Control': "no-cache",}

最后发现是Host不对，注释Host之后，发现就可以正常的采集数据了。然后重新抓包看了下该请求，发现Host已经更换，由于对Host不熟，所以专门写一篇来记录下，顺便复习下HTTP协议。

服务器的域名(用于虚拟主机 )，以及服务器所监听的传输控制协议端口号。如果所请求的端口是对应的服务的标准端口，则端口号可被省略。自超文件传输协议版本1.1（HTTP/1.1）开始便是必需字段。

Host: en.wikipedia.org:80
Host: en.wikipedia.org

状态为：常设

来源：HTTP头字段

这篇文章讲的很清楚：网络---一篇文章详解请求头Host的概念

https://blog.csdn.net/netdxy/article/details/51195560

在http 1.1中不能缺失host字段，如果缺失,，服务器返回400 bad request，http1.1中不能缺失host字段，但host字段可以是空值。

本文参与?腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-10-24，如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与算法进阶微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体同步曝光计划? ，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度