今天复原一个古老项目时,一直遇到了一个问题,Scrapy一直提示下载某链接时出错了,报错信息如下:
[<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]
这个错误以前也遇到过,但是并不知道如何去解决,去Google,有人说是加UA头,有人说是代理问题,专门用curl去测试代理,发现代理是OK的。
然后去检查UserAgent,试过各种发现均不行,
headers = {
'User-Agent': "xxxxx",
'Content-Type': "text/plain; charset=UTF-8",
'Host': "xxxx",
'Cache-Control': "no-cache",}
最后发现是Host不对,注释Host之后,发现就可以正常的采集数据了。然后重新抓包看了下该请求,发现Host已经更换,由于对Host不熟,所以专门写一篇来记录下,顺便复习下HTTP协议。
服务器的域名(用于虚拟主机 ),以及服务器所监听的传输控制协议端口号。如果所请求的端口是对应的服务的标准端口,则端口号可被省略。自超文件传输协议版本1.1(HTTP/1.1)开始便是必需字段。
Host: en.wikipedia.org:80
Host: en.wikipedia.org
状态为:常设
来源:HTTP头字段
这篇文章讲的很清楚:网络---一篇文章详解请求头Host的概念
https://blog.csdn.net/netdxy/article/details/51195560
在http 1.1中不能缺失host字段,如果缺失,,服务器返回400 bad request,http1.1中不能缺失host字段,但host字段可以是空值。
本文分享自 Python爬虫与算法进阶 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与?腾讯云自媒体同步曝光计划? ,欢迎热爱写作的你一起参与!