通过robots.txt文件屏蔽蜘蛛抓取不存在的后缀
通过网站日志分析,会发现搜索引擎蜘蛛抓取了一些网站上不存在的文件后缀,如:.php、.asp、.aspx等。
搜外网站后台日志分析结果如下图:
image.
搜外主站实际上不存在php后缀的URL地址。
可通过robots.txt文件禁止蜘蛛抓取不存在的后缀,减少出现404返回值。
在robots.txt文件填写屏蔽规则如下:
Disallow: /*.asp$
Disallow: /*.php$
Disallow: /*.aspx$
注意前面一个*,后面一个$,代表后缀。
参考搜外的robots.txt文件写法,点击这里
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。



