最近为了避免搜索引擎抓取重复页面、动态页面以及测试页面,在网站根目录里加了个robots.txt文件,内容如下:
User-agent: * Disallow: /wp-admin Disallow: /wp-content Disallow: /wp-includes/ Disallow: /tag Disallow: /date Disallow: */trackback Disallow: /*?replytocom= Disallow: /*?* Disallow: */comment-page-* Disallow: /author Disallow: /guestbook Disallow: /go Disallow: /?r=* Disallow: /bq Allow: /wp-content/uploads/ Sitemap: http://http://www.ilouhao.com/sitemap.xml Sitemap: http://www.xltyu.com.com/sitemap.xml.gz
隔日检查google抓取该禁止的都禁止了,抓取正常。如图:
前几天百度不收录我网站,今天恢复收录了,却发现百度把robots.txt无视了,有图有真相:
百度是否支持robots.txt这个文件是有争议的,然而主流的说法是说支持的。然而今天娄昊的博客是没有被支持,至于是不支持某些命令,还是都不支持,还是不稳定,还是要看传说中的人品,这个估计就”百度知道”了.
留下您的宝贵意见