问答

如何设置网站robots 更符合seo

2019-07-27 meiz21

问题答疑

  Robots的意思和作用

  网站robots是一个位于域名根目录(例如http://wwweyoucms.com/robots.txt)的一个系统文件。主要是用来引导控制蜘蛛爬行规则,主要有这些作用:

  1.在网站不想公开的情况下可以禁止蜘蛛爬行,以准备充分的内容。

  2.可以禁止蜘蛛抓取对搜索引擎和用户无意义的系统文件。如脚本、应用和其他类型代码都可以禁止蜘蛛抓取,以节省抓取时间。

  3.可以放置XML地图引导蜘蛛爬行。

  4.避免搜索引擎收录网站复制内容,比如产品目录在不同条件下检索的各种情况。

  5.屏蔽恶意爬虫。

  需要注意的是robots.txt文件必须位于根目录,并且文件名全部小写。(必须robots.txt,大写或者其他形式都不可以)。如果位于其他位置或者命名错误会对搜索引擎无效。并且文件必须是文本格式,不是html。

zhizhu

  如何设置robots.txt

  robots.txt文件的基本语法十分简单。指定一定蜘蛛名称,如”Baiduspider”,然后通过用户代理(User-Agent)分辨,指定的行为放在下一行。通常用的指令便是Disallow。这个指令是用来屏蔽蜘蛛访问的页面。列如:

  User-agent:*

  User-agent:Baiduspider

  Disallow:

  User-agent::Googlebot

  Disallow:/

  这两行分别代表的是意思就是允许百度抓取任何页面,禁止谷歌蜘蛛抓取任何页面。禁止是用/表示,空白则默认抓取。User-agent:*的含义则是配置所有搜索引擎。需要主要的是每一组User-agent/Disallow之间需要用空行隔开。

  现在配置好robots.txt文件都在爱站网进行检测,例子如下:

lizi

  检测工具会检测每一行代码的含义并反馈是否生效,非常实用。

  关于HTTPS

  现在很多站长都做了https协议,经常出错的地方在于https://www.xxx.com和http://ww.xxx.com是不同的,所以在做了https之后需要重新配置robots.txt文件,否则可能会造成不必要的麻烦。

  配置网站robots.txt是SEO的基础操作,如何更好的引导蜘蛛抓取需要在不断的实践中调整,这样就可以达到网站抓取资源分配最优化。


QQ在线咨询