url中的 #、？的作用和意义

李玺

发布于 2021-11-22 18:59:18

4.4K0

发布于 2021-11-22 18:59:18

文章被收录于专栏：爬虫逆向案例爬虫逆向案例

#号：代表网页中的一个位置。

其右面的字符，就是该位置的标识符。比如，你点击下面url：

https://blog.csdn.net/weixin_43582101/article/details/90416944

看到的是页面是正常。

你加个#号，再写一些东西，他就定位到那了

#就代表网页index.html的ChromeOptions的位置。浏览器读取这个URL后，会自动将ChromeOptions位置滚动至可视区域。

HTTP请求中不包括#：

#是用来指导浏览器动作的，对服务器端完全无用。所以，HTTP请求中不包括#。

比如，访问下面的网址，

https://blog.csdn.net/weixin_43582101/article/details/90416944#print

浏览器实际发出的请求是这样的：

GET /index.html HTTP/1.1

Host: https://blog.csdn.net/weixin_43582101/article/details/90416944

可以看到，只是请求index.html，根本没有"#print"的部分。

在第一个#后面出现的任何字符，都会被浏览器解读为位置标识符。这意味着，这些字符都不会被发送到服务器端。

改变#不触发网页重载

单单改变#后的部分，浏览器只会滚动到相应位置，不会重新加载网页。

比如，从

https://blog.csdn.net/weixin_43582101/article/details/90416944#range

到：

https://blog.csdn.net/weixin_43582101/article/details/90416944#switch_to_window

浏览器不会重新向服务器请求index.html。

改变#会改变浏览器的访问历史

每一次改变#后的部分，都会在浏览器的访问历史中增加一个记录，使用"后退"按钮，就可以回到上一个位置。

这对于ajax应用程序特别有用，可以用不同的#值，表示不同的访问状态，然后向用户给出可以访问某个状态的链接。

值得注意的是，上述规则对IE 6和IE 7不成立，它们不会因为#的改变而增加历史记录。

Google抓取#的机制

默认情况下，Google的网络蜘蛛忽视URL的#部分。

但是，Google还规定，如果你希望Ajax生成的内容被浏览引擎读取，那么URL中可以使用"#!"，Google会自动将其后面的内容转成查询字符串_escaped_fragment_的值。

比如，Google发现新版twitter的URL如下：

http://twitter.com/#!/username

就会自动抓取另一个URL：

http://twitter.com/?escaped_fragment=/username

通过这种机制，Google就可以索引动态的Ajax内容。

？号：

1）连接作用：比如

http://www.xxx.com/Show.asp?id=77&nameid=2905210001&page=1

2）清除缓存：比如

http://www.xxxxx.com/index.html

http://www.xxxxx.com/index.html?test123123

两个url打开的页面一样，但是后面这个有问号，说明不调用缓存的内容，而认为是一个新地址，重新读取。

本文参与?腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2019-05-30 ，如有侵权请联系 cloudcommunity@tencent.com 删除

html

http

https

网络安全

本文分享自作者个人站点/博客?前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度