[WordPress教程] 使用Wordpress搭建的博客,利用robots.txt文件限制搜索引擎抓取部分目录及文件,归纳大致有以下几种方法。

[复制链接]
查看: 48|回复: 0

签到天数: 656 天

[LV.9]以坛为家II

3663

主题

4182

帖子

65万

积分

黄金果:18198 个

萝卜:652373 颗

发表于 2020-1-4 18:36:38 | 显示全部楼层 |阅读模式

马上注册,下载更多资源!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

使用方法:

robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。
例如:如果您的网站地址是 https://www.tubaoge.com/那么,该文件必须能够通过https://www.tubaoge.com/robots.txt打开并看到里面的内容。

一.最简单开放的写法
抓取不做任何限制,一般博客这样写就可以了

  1. User-agent: *
  2. Disallow:
复制代码
允许所有蜘蛛访问,允许访问所有内容。Wordpress只要模板中链接设计合理,没有需要限制的特殊内容,推荐使用这种写法。

二.最简单的严格写法
  1. User-agent: *
  2. Disallow: /wp-*
  3. #Allow: /wp-content/uploads/
  4. Disallow: /*.php$
  5. Disallow: /*.inc$
  6. Disallow: /*.js$
  7. Disallow: /*.css$
  8. Disallow: /?s=
复制代码
允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取搜索结果。

Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让搜索引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

三.最合理的写法
  1. User-agent: *
  2. Disallow: /wp-admin
  3. Disallow: /wp-content/plugins
  4. Disallow: /wp-content/themes
  5. Disallow: /wp-includes
  6. Disallow: /?s=
  7. Sitemap: https://www.tubaoge.com/sitemap.xml
复制代码
允许所有搜索引擎抓取,逐一列举需要限制的目录,限制抓取搜索结果。

包含sitemap.xml地址(这一项viki中有专门的说明,但Google管理员工具会提示‘检测到无效的 Sitemap 引用’,有效性尚有争议)。

四.robots.txt其他写法

为避免在搜索引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):
  1. Disallow: /page/
  2. #限制抓取Wordpress分页
  3. Disallow: /category/*/page/*
  4. #限制抓取分类的分页
  5. Disallow: /tag/
  6. #限制抓取标签页面
  7. Disallow: */trackback/
  8. #限制抓取Trackback内容
  9. Disallow: /category/*
  10. #限制抓取所有分类列表
复制代码
五.robots.txt标签简介
User-agent:

用于描述搜索引擎蜘蛛的名字,在” Robots.txt “文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在” Robots.txt “文件中,”User-agent:*”这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

举例:

例一:“Disallow:/help”是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。

例二:“Disallow:/help/”是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。

例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。

#:Robots.txt 协议中的注释符。

综合例子 :

例一:通过”/robots.txt”禁止所有搜索引擎蜘蛛抓取”/bin/cgi/”目录,以及 “/tmp/”目录和 /foo.html 文件,设置方法如下:

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

例二:通过”/robots.txt”只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允许名为”slurp”的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 “/cgi/” 目录下的内容,设置方法如下:

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三:禁止任何搜索引擎抓取我的网站,设置方法如下:

User-agent: *

Disallow: /

例四:只禁止某个搜索引擎抓取我的网站如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:

User-agent: slurp

Disallow: /

兔哥,你想我吗?我都想你啦,哈哈
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部快速回复上一主题下一主题返回列表找客服
成为赞助会员,全站商业源码模板插件无限制下载 立即登录 立即注册

平台简介

兔哥资源(www.tubaoge.com),一位资深源码爱好者,从业数年,从一个小白入门到现在经历过的风风雨雨,让兔宝哥深深体会到了小白们的艰难之处,故与今时创建兔哥资源源码论坛,致力为各位小白们提供可用的建站商业源码、wordpress模板插件、Thinkphp源码、discuz模板插件、帝国cms模板插件、整站php源码、织梦cms模板插件、小程序源码等资源下载让大家少走弯路节约时间本站源码均来自互联网,仅供学习之用请勿用在商业用途,如商用一切后果与本站无关商业请购买正版!

© 2019 WWW.TUBAOGE.COM · 兔哥资源 · 全网一手php源码下载小程序源码下载论坛  |网站地图

返回顶部 返回列表