robots

  robots.txt作为所有搜索引擎共同遵循的规则协议书,当搜索引擎蜘蛛爬行站点时先检测网站有无robots其次依照robots规则范围进行爬行,如果没有robots.txt,那么蜘蛛就会沿着链接抓取。

  请牢牢记住:robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。Disallow后面的冒号必须为英文状态的。

  

  我们先来理解User-agent和Disallow的定义。

  User-agent:该项用于描述搜索引擎蜘蛛的名字。(1)规定所有蜘蛛:User-agent:*;(2)规定某一个蜘蛛:User-agent:BaiduSpider。

  Disallow:该项用于描述不希望被抓取和索引的一个URL,这个URL可以是一条完整的路径。这有几种不同定义和写法:(1)Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,也就是说以AAA.net目录内的文件均不会被蜘蛛访问;(2)Disallow:/AAA.net/则允许robots抓取和索引AAA.net/index.html,而不能抓取和索引AAA.net/admin.html;(3)如果Disallow记录为空,说明该网站的所有部分都允许被访问。在robots.txt文件中,至少应有Disallow记录,如果robots.txt为空文件,则对所有的搜索引擎robot来说,该网站都是开放的。

  1、国内建站需要用到的常见搜索引擎robot的名称。

  有时候我们觉得网站访问量(IP)不多,但是网站流量为什么耗的快?有很多的原因是垃圾(没有)蜘蛛爬行和抓取消耗的。而网站要屏蔽哪个搜索引擎或只让哪个搜索引擎收录的话,首先要知道每个搜索引擎robot的名称。

  2、robots.txt文件基本常用写法:

  首先,你先建一个空白文本文档(记事本),然后命名为:robots.txt。

  (1)禁止所有搜索引擎访问网站的任何部分。

  User-agent: *

  Disallow: /

  (2)允许所有的robots访问,无任何限制。

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  还可以建立一个空文件robots.txt或者不建立robots.txt。

  (3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)

  User-agent: BaiduSpider

  Disallow:/

  (4)允许某个搜索引擎的访问(还是百度)

  User-agent: BaiduSpider

  Disallow:

  User-agent: *

  Disallow: /

  这里需要注意,如果你还需要允许谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。

  (5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。

  User-agent: *

  Disallow: /AAA.net/

  Disallow: /admin/

  Disallow: .jpg$

  Disallow: .rar$

  这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“Disallow:/AAA.net/ /admin/”。

  3、robots特殊参数(这一部分不熟者不要轻易使用)

  (1)Allow

  Allow与Disallow是正好相反的功能,Allow行的作用原理完全与Disallow行一样,所以写法是一样的,只需要列出你要允许的目录或页面即可。

  Disallow和Allow可以同时使用,例如,需要拦截子目录中的某一个页面之外的其他所有页面,可以这么写:

  User-agent: *

  Disallow: /AAA.net/

  Allow: /AAA.net/index.html

  这样说明了所有蜘蛛只可以抓取/AAA.net/index.html的页面,而/AAA.net/文件夹的其他页面则不能抓取,还需要注意以下错误的写法:

  User-agent: *

  Disallow: /AAA.net

  Allow: /AAA.net/index.html

  原因请看上面Disallow值的定义说明。

  (2)使用“*”号匹配字符序列。

  例1.拦截搜索引擎对所有以admin开头的子目录的访问,写法:

  User-agent: *

  Disallow: /admin*/

  例2.要拦截对所有包含“?”号的网址的访问,写法:

  User-agent: *

  Disallow: /*?*

  (3)使用“$”匹配网址的结束字符

  例1.要拦截以.asp结尾的网址,写法:

  User-agent: *

  Disallow:/*.asp$

  例2.如果“:”表示一个会话ID,可排除所包含该ID的网址,确保蜘蛛不会抓取重复的网页。但是,以“?”结尾的网址可能是你要包含的网页版本,写法:

  User-agent: *

  Allow: /*?$

  Disallow: /*?

  也就是只抓取.asp?的页面,而.asp?=1,.asp?=2等等都不抓取。

  4、网站地图(sitemap)

  对于提交网站地图,我们可以到谷歌站长工具提交,也可以用robots.txt文件中提示蜘蛛抓取:

  sitemap:AAA.net/sitemaps.xml

  5、robots.txt的好处与坏处(解决方法)。

  好处:

  (1)有了robots.txt,spider抓取URL页面发生错误时则不会被重定向至404处错误页面,同时有利于搜索引擎对网站页面的收录。

  (2)robots.txt可以制止我们不需要的搜索引擎占用服务器的宝贵宽带。

  (3)robots.txt可以制止搜索引擎对非公开的爬行与索引,如网站的后台程序、管理程序,还可以制止蜘蛛对一些临时产生的网站页面的爬行和索引。

  (4)如果网站内容由动态转换静态,而原有某些动态参数仍可以访问,可以用robots中的特殊参数的写法限制,可以避免搜索引擎对重复的内容惩罚,保证网站排名不受影响。

  坏处:

  (1)robots.txt轻松给黑客指明了后台的路径。

  解决方法:给后台文件夹的内容加密,对默认的目录主文件inde.html改名为其他。

  (2)如果robots.txt设置不对,将导致搜索引擎不抓取网站内容或者将数据库中索引的数据全部删除。

  User-agent: *

  Disallow: /

  这一条就是将禁止所有的搜索引擎索引数据。

  数字营销人员和搜索引擎优化专业人士都应该知道搜索引擎索引的重要性,这正是他们尽力帮助各大搜索引擎正确抓取并索引其网站,并将时间和资源投入到页内和页外优化(如内容,链接,标签,元描述,图像优化,网站结构等)的原因。

  但是,虽然不排除高级网站优化是搜索成功的基础,但忘记搜索引擎优化的技术部分可能是一个严重的错误。如果您从未听说过有关robots.txt,机器人标签,XML站点地图,微格式和X-Robot标签的信息,则可能会遇到麻烦。

  不过,请不要惊慌。在本文中,我将解释如何使用和设置robots.txt标签。我也会提供几个实际的例子。开始吧!

  什么是robots.txt?

  robots.txt是一个文本文件,用于指示搜索引擎机器人(也称为抓取工具,机器人或蜘蛛)如何抓取和索引网站页面。理想情况下,robots.txt文件放置在您网站的顶级目录中,以便机器人可以立即访问其说明。

  为了将命令传达给不同类型的搜索爬虫,robots.txt文件必须遵循机器人排除协议(REP)中的特定标准,该协议于1994年创建,然后在1996年,1997年和2005年大幅扩展。

  纵观他们的历史,robots.txt文件已经逐渐改进,以支持特定的抓取工具指令,URI模式扩展,索引指令(也称为REP标签或机器人元标签)以及微格式rel=“nofollow”。

  由于robots.txt文件为搜索漫游器提供了关于如何抓取或如何不抓取本网站或该部分网站的指导,因此了解如何使用和设置这些文件非常重要。如果robots.txt文件设置不正确,可能会导致多个索引错误。所以,每次你开始一个新的SEO活动时,请使用手动检查你的robots.txt文件。

  不要忘记:如果一切正常,robots.txt文件将加快索引过程。

  用robots.txt隐藏

  robots.txt文件可用于从搜索中排除某些目录,类别和页面。为此,请使用“disallow”指令。

  以下是一些您应该使用robots.txt文件隐藏的页面:

  包含重复内容的网页

  分页页面

  动态产品和服务页面

  帐户页面

  管理页面

  购物车

  聊天

  基本上,它看起来像这样:

  

  在上面的示例中,我指示避免对用户帐户,购物车和用户在搜索栏中查找产品或按价格排序时生成的多个动态页面的所有页面进行爬网和索引,等等。

  但是,请不要忘记,任何robots.txt文件都可以在网上公开获得。要访问robots.txt文件,只需输入:

  www.simcf.cc/robots.txt(替换自己的域名即可);

  此可用性意味着您无法保护或隐藏其中的任何数据。此外,恶意机器人和恶意抓取工具可以利用robots.txt文件,将其用作详细地图来浏览最有价值的网页。

  另外,请记住,robots.txt命令实际上是指令。这意味着即使您指示他们不要,搜索漫游器也可以抓取您的网站并将其编入索引。好消息是,大多数搜索引擎(如百度、360、Google、Bing、Yahoo和Yandex)都会遵守robots.txt指令。

  robots.txt文件肯定有缺点。尽管如此,我强烈建议您将它们作为每个SEO活动的组成部分。各大搜索引擎承认并遵守robots.txt指令,并且在大多数情况下,让搜索引擎承担您的责任已经足够了。

  如何使用Robots.txt

  Robots.txt文件非常灵活,可以以多种方式使用。然而,他们的主要好处是可以让SEO专家一次性“允许”或“禁止”多个页面,而无需逐一访问每个页面的代码。

  例如,您可以阻止来自内容的所有搜索抓取工具。喜欢这个:

  用户代理: *

  不允许: /

  或隐藏您网站的目录结构和特定类别,如下所示:

  用户代理: *

  禁止:/ no-index /

  从搜索中排除多个页面也很有用。只需解析您想要从搜索抓取工具中隐藏的网址。然后,在您的robots.txt中添加“disallow”命令,列出这些URL,并且,瞧!?– 各大搜索引擎不再显示这些网页。

  

  但更重要的是,robots.txt文件允许您优先考虑某些页面,类别,甚至是CSS和JS代码。看看下面的例子:

  

  在这里,我们不允许使用WordPress页面和特定类别,但是允许使用wp-content文件,JS插件,CSS样式和博客。这种方法可以保证蜘蛛抓取并索引有用的代码和类别。

  还有一件重要的事情:robots.txt文件是您的sitemap.xml文件的可能位置之一。它应放置在用户代理,禁止,允许和主机命令之后。喜欢这个:

  注意:您还可以将您的robots.txt文件手动添加到站长管理平台,并且如果您的目标是百度站长工具。这是一种更安全的方法,因为这样做可以保护您的内容免受竞争对手网站的网站管理员的影响。

  尽管robots.txt结构和设置非常简单,但正确设置的文件可以制作或打破您的SEO活动。小心使用设置:您可以轻易“不允许”整个网站,然后等待流量和客户无济于事。

  结论

  搜索引擎优化不仅仅是关键字,链接和内容。SEO的技术部分也很重要。事实上,它可以为您的整个数字营销活动带来不同。因此,请尽快学习如何正确使用和设置robots.txt文件协议。我希望我在本文中描述的做法和建议能够指导您顺利完成这一过程。

收藏
0
有帮助
0
没帮助
0