探析Robots文件:了解并优化你的网站搜索引擎爬行控制
探析Robots文件:了解并优化你的网站搜索引擎爬行控制权
最近几天,跟一位朋友聊过这样一个话题,他发现SEO中关于Robots的概念有点不对劲,Robots协议里的搜索引擎蜘蛛会根据用户搜索的内容和历史记录来判断该网页的哪个版本,由于他根本不知道这个参数是由哪个搜索引擎来确定的,也无法识别到某个站点。
为了让大家更好理解,我给他分享了一份名为《Robots规则》的内容,里面讲的规则主要是让Robots遵守规则。
那么,Robots规则里的哪些是我们可以做的呢?
我们通常所说的是“蜘蛛”爬行控制权。其实并不是说我们网站要去禁止搜索引擎抓取了,而是“禁止该网站目录和页面。”
什么是“蜘蛛”爬行控制权?
当蜘蛛(某些网站目录的搜索引擎爬虫)来抓取网站页面时,你会发现网站中没有这个页面,可能是一个页面,或其他的信息页面。
那么,为什么蜘蛛会如此频繁地抓取网站中的页面?我们通过什么方式可以禁止蜘蛛抓取?
1.Robots:禁止所有蜘蛛(大多数网站目录目录都已经创建好了)
Robots.txt是一个用来禁止搜索引擎蜘蛛爬取和索引网站目录的文本文件,通过Robots.txt,搜索引擎会轻松地浏览所有带有文本的目录,然后它们会按照robots.txt去处理,并将所有对搜索引擎抓取和索引的目录全部删除,因此搜索引擎蜘蛛是没有这个文件的。
2.禁止所有网站目录
在制定规则的过程中,我们经常会遇到一些不允许用户访问网站目录的问题。
例如,百度官方有专门为用户展示的“robots.txt禁止收录所有目录”,并且并不是任何网站目录都允许百度蜘蛛抓取,如:
A,网站结构:一般来说,网站结构简单,且具有明显的引导性。
例如,在网站结构方面,我们通常采用树形结构,并且确保用户可以顺畅地访问网站目录的网站结构。
B,网站URL:规范的URL结构,特别是URL的网址。
我们需要清楚,网站目录层级的网站的用户体验不高,这与我们优化SEO没有直接关系。
简单地说,网站目录层级越深,搜索引擎蜘蛛爬取的概率就越低,特别是对于新站,我们需要花费更多的时间去等待搜索引擎的收录,从而提高网站权重。
C,网站日志:包括了网站的服务器日志,蜘蛛爬行和抓取的频率。
共有 0 条评论