168网络营销学院-从SEO到全网营销的在线课程

百度平台工具使用帮助(一)

为什么要验证网站

  站长平台推荐站长添加主站(您网站的链接也许会使用www 和非 www 两种网址,建议添加用户能够真实访问到的网址),添加并验证后,可证明您是该域名的拥有者,可以快捷批量添加子站点,查看所有子站数据,无需再一一验证您的子站点。

如何验证网站
首先如果您的网站已使用了百度统计,您可以使用统计账号登录平台,或者绑定站长平台与百度统计账号,站长平台支持您批量导入百度统计中的站点,您不需要再对网站进行验证。

百度站长平台为未使用百度统计的站点提供三种验证方式:文件验证、html标签验证、CNAME验证。
  1.文件验证:您需要下载验证文件,将文件上传至您的服务器,放置于域名根目录下。
  2.html标签验证:将html标签添加至网站首页html代码的标签与标签之间。
  3.CNAME验证:您需要登录域名提供商或托管服务提供商的网站,添加新的DNS记录。

  验证完成后,我们将会认为您是网站的拥有者。为使您的网站一直保持验证通过的状态,请保留验证的文件、html标签或CNAME记录,我们会去定期检查验证记录。


百度统计用户
如果您的网站已使用了百度统计,您可以使用统计账号登录平台,或者绑定站长平台与百度统计账号,站长平台支持您批量导入百度统计中的站点,您不需要再对网站进行验证。


网站验证常见错误及解决办法


如何选择链接提交方式

主动推送:最为快速的提交方式,建议您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。

sitemap:您可以定期将网站链接放到Sitemap中,然后将Sitemap提交给百度。百度会周期性的抓取检查您提交的Sitemap,对其中的链接进行处理,但收录速度慢于主动推送。

手工提交:如果您不想通过程序提交,那么可以采用此种方式,手动将链接提交给百度。


使用主动推送功能会达到怎样效果

  及时发现:可以缩短百度爬虫发现您站点新链接的时间,使新发布的页面可以在第一时间被百度收录
  保护原创:对于网站的最新原创内容,使用主动推送功能可以快速通知到百度,使内容可以在转发之前被百度发现


如何使用主动推送功能

1,需要网站制作数据推送接口,进入主动推送工具后,会看到接口调用地址的token,token是由16个英文数字组合的字符串


2,下面提供一些推送示例
1)curl推送示例
将要提交的url数据写入一个本地文件,比如urls.txt,每个url占一行,然后调用curl命令:
curl -H 'Content-Type:text/plain' --data-binary @urls.txt
"http://data.zz.baidu.com/urls?site=www.example.com&token=edk7yc4rEZP9pDQD"
使用php、python、java等可以参照这个过程推送结构化数据。

2)post推送示例
POST /urls?site=www.58.com&token=edk7ychrEZP9pDQD HTTP/1.1
User-Agent: curl/7.12.1 
Host: data.zz.baidu.com 
Content-Length: 83
http://www.example.com/1.html
http://www.example.com/2.html

3)php推送示例
$urls = array(
    'http://www.example.com/1.html',
    'http://www.example.com/2.html',
);
$api = 'http://data.zz.baidu.com/urls
site=www.58.com&token=edk7ychrEZP9pDQD';
$ch = curl_init();
$options =  array(
    CURLOPT_URL => $api,
    CURLOPT_POST => true,
    CURLOPT_RETURNTRANSFER => true,
    CURLOPT_POSTFIELDS => implode("\n", $urls),
    CURLOPT_HTTPHEADER => array('Content-Type: text/plain'),
);
curl_setopt_array($ch, $options);
$result = curl_exec($ch);
echo $result;

4)ruby推送示例
require 'net/http'
urls = ['http://www.example.com/1.html', 'http://www.example.com/2.html']
uri = URI.parse('http://data.zz.baidu.com/urls
site=www.xxx.com&token=eTk7ychrWZP1pDQD')
req = Net::HTTP::Post.new(uri.request_uri)
req.body = urls.join("\n")
req.content_type = 'text/plain'
res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }
puts res.body

如何查看推送反馈

您可以通过推送后返回的状态码和字段来判断数据是否推送成功。
1,状态码为200,表示推送成功,可能返回以下字段:

 成功返回示例:
{
   "remain":4999998,
   "success":2,
   "not_same_site":[],
   "not_valid":[]
}

2,状态码为4XX或500,表示推送失败,返回字段有:

 
常见的推送失败返回示例说明:


主动推送功能常见问题

1, 和原来的sitemap提交接口有什么区别?
        答:状态反馈更及时了,原来提交后需要登录到站长平台查看提交是否成功。目前只要根据提交后返回的数据就可以判断了。

2, 已经存在的提交sitemap数据的程序代码需要做什么修改?
        答:主要修改两点。第一点,提交的接口需要修改;第二点,需要处理下接口返回的信息,失败后需要根据错误进行相应处理,报错的链接是无法提交成功的

3,为什么提交成功后看不到数据变化?
        答:我们反馈的是新提交链接的数量,如果您提交的链接在之前提交过(即重复提交)是不会被统计到的

4,在什么时机使用主动推送提交功能效果最明显?
        答:页面链接产生或发布时立即提交,这样效果是最好的 

5,每次提交一条数据和多条数据有什么区别?
        答:没有区别 

6,重复提交已经发布的链接会有什么问题?
        答:会有两个影响。第一,将浪费您提交的配额,每个站点每天可提交的数量是有限制的,如果您都提交了旧链接,当有新链接时可能因为配额耗尽无法提交。第二,如果您经常重复提交旧链接,我们会下调您的配额,您可能会失去主动推送功能的权限

7,主动推送可以推多少条链接?
        答:主动推送可提交的链接数量上限是根据您提交的新产生有价值链接数量而决定的,百度会根据您提交数量的情况不定期对上限额进行调整,提交的新产生有价值链接数量越多,可提交链接的上限越高。

 
什么是Sitemap
Sitemap(即站点地图)就是您网站上各网页的列表。创建并提交Sitemap有助于百度发现并了解您网站上的所有网页。您还可以使用Sitemap提供有关您网站的其他信息,如上次更新日期、Sitemap文件的更新频率等,供百度Spider参考。

百度对已提交的数据,不保证一定会抓取及索引所有网址。但是,我们会使用Sitemap中的数据来了解网站的结构等信息,这样可以帮助我们改进抓取策略,并在日后能更好地对网站进行抓取。

此外,Sitemap 与搜索排名没有关系。 



百度Sitemap支持哪些格式

百度Sitemap协议支持三种格式:文本格式、xml格式、Sitemap索引格式,可以根据自己情况来选择任意一种格式组织sitemap。具体格式说明及示例如下:

1.第一种格式样例:txt文本格式
在一个txt文本列明需要向百度提交的链接地址,将txt文本文件通过站长平台进行提交    
http://www.example.com/repaste/101562698_5230191316.html
http://www.example.com/repaste/101586283_5230215075.html
http://www.example.com/repaste/101639435_5230310576.html  

此文本文件需要遵循以下指南:
· 文本文件每行都必须有一个网址。网址中不能有换行。
· 不应包含网址列表以外的任何信息。
· 您必须书写完整的网址,包括 http。
· 每个文本文件最多可包含 50,000 个网址,并且应小于10MB(10,485,760字节)。如果网站所包含的网址超过 50,000 个,则可将列表分割成多个文本文件,然后分别添加每个文件。
· 文本文件需使用 UTF-8 编码或GBK编码。  

2.第二种格式样例:xml格式
单个xml数据格式如下:
   
       
        http://www.yoursite.com/yoursite.html
       
        2009-12-14
       
        daily
       
        0.8
       
   
   
        http://www.yoursite.com/yoursite2.html
        2010-05-01
        daily
        0.8
   
上述Sitemap向百度提交了一个url:http://www.yoursite.com/yoursite.html 


若有多条url,按照上述格式重复之间的片断,列明所有url地址,打包到一个xml文件,向站长平台进行提交。


3.第三种格式样例:Sitemap索引格式
如需提交大量sitemap文件,则可将其列在sitemap索引文件中,然后将该索引文件提交。您无需分别提交每个文件。
   
       
                    http://example.com/ext/xmlsitemap/add/201201/index_20120106.xml

       
        2009-12-14
       
   
   

有多个Sitemap,按上述格式重复之间的片断,列明所有Sitemap地址,向站长平台进行提交。


创建Sitemap时有哪些注意事项?
第一,一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。

第二,一个站点支持提交的sitemap文件个数必须小于5万个,多于5万个后会不再处理,并显示“链接数超”的提示。    

第三,如果验证了网站的主域,那么Sitemap文件中可包含该网站主域下的所有网址。


如何提交Sitemap
第一步,将需提交的网页列表制作成一个Sitemap文件,文件格式请阅读百度Sitemap协议都支持哪些格式。
  第二步,将Sitemap文件放置在网站目录下。比如您的网站为example.com,您已制作了一个sitemap_example.xml的Sitemap文件,将sitemap_example.xml上传至网站根目录即example.com/sitemap_example.xml
  第三步,登录百度站长平台,确保提交Sitemap数据的网站已验证归属。
  第四步,进入Sitemap工具,点击“添加新数据”,文件类型选择“URL列表”,填写抓取周期和Sitemap文件地址
  最后,提交完之后,可在Sitemap列表里看到提交的Sitemap文件,如果Sitemap文件里面有新的网站链接,可以选择文件后,点击更新所选,即对更新的网站链接进行了提交。


什么是移动Sitemap协议,如何提交移动Sitemap协议

百度推出了移动Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了标签,它有四种取值:
:移动网页
:移动网页      
:自适应网页
:代码适配

无该上述标签表示为PC网页

下方样例相当于向百度移动搜索提交了一个移动网页:http://m.example.com/index.html,向PC搜索提交了一个传统网页:http://www.example.com/index.html,同时向移动搜索和PC搜索提交了一个自适配网页http://www.example.com/autoadapt.html:
 
xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/"> 
 
http://m.example.com/index.html 
2009-12-14
daily
0.8
 
 
http://www.example.com/index.html
2009-12-14
daily
0.8
 
 
http://www.example.com/autoadapt.html 
2009-12-14
daily
0.8
 
 
http://www.example.com/htmladapt.html 
2009-12-14
daily
0.8
 

按照移动Sitemap协议做好Sitemap后,在Sitemap工具点击添加新数据提交,与提交普通Sitemap方式一致。



我提交时填写的周期是什么含义?
百度Spider会参考设置周期抓取Sitemap文件,因此请根据Sitemap文件内容的更新(比如增加新url)来设置。请注意若url不变而仅是url对应的页面内容更新(比如论坛帖子页有新回复内容),不在此更新范围内。Sitemap工具不能解决页面更新问题。


Sitemap提交后,多久能被百度处理?
Sitemap数据提交后,一般在1小时内百度会开始处理。在以后的调度抓取中,如果您的sitemap支持etag,我们会更频繁抓取sitemap文件,从而及时发现内容更新;否则抓取的周期会比较长。



提交的Sitemap都会被百度抓取并收录吗?
百度对已提交的数据,不保证一定会抓取及收录所有网址。是否收录与页面质量相关。



我可以压缩我的 Sitemap 吗?它们是否需要用 gzip 压缩?
可以。请使用 gzip 压缩 Sitemap。无论压缩与否,Sitemap 应该小于 10MB(10,485,759字节)。



XML格式的 Sitemap 中,“priority”提示会影响我的网页在搜索结果中的排名吗?
不会。Sitemap 中的“priority”提示只是说明该网址相对于您自己网站上其他网址的重要性,并不会影响网页在搜索结果中的排名。


网址在 Sitemap 中的位置是否会影响它的使用?
不会。网址在 Sitemap 中的位置并不会影响百度对它的识别或使用方式。


Sitemap中提交的url能否包含中文?
因为转码问题建议最好不要包含中文。


什么是自动推送工具?自动推送工具解决了什么问题?
自动推送JS代码是百度站长平台最新推出的轻量级链接提交组件,站长只需将自动推送的JS代码放置在站点每一个页面源代码中,当页面被访问时,页面链接会自动推送给百度,有利于新页面更快被百度发现。

为了更快速的发现站点每天产生的最新内容,百度站长平台推出主动推送工具,产品上线后,部分站长反馈使用主动推送方式的技术门槛较高,于是我们顺势推出更低成本的JS自动推送工具。一步安装便可实现页面自动推送,低成本,高收益。


自动推送代码如何安装使用?
站长需要在每个页面的HTML代码中包含以下自动推送JS代码:


如果站长使用PHP语言开发的网站,可以按以下步骤操作:
1、创建名为“baidu_js_push.php”的文件,文件内容是上述自动推送JS代码;
2、在每个PHP模板页文件中的 标记后面添加一行代码:


为什么自动推送可以更快的将页面推送给百度搜索?
基于自动推送的实现原理问题,当新页面每次被浏览时,页面URL会自动推送给百度,无需站长汇总URL再进行主动推送操作。

借助用户的浏览行为来触发推送动作,省去了站长人工操作的时间。


自动推送和主动推送有什么区别?
已经在使用链接提交里的主动推送(或sitemap)的网站还需要再部署自动推送代码吗?

二者之间互不冲突,互为补充。已经使用主动推送的站点,依然可以部署自动推送的JS代码,二者一起使用。


什么样的网站更适合使用自动推送?
自动推送由于实现便捷和后续维护成本低的特点,适合技术能力相对薄弱,无能力支持全天候实时主动推送程序的站长。

站长仅需一次部署自动推送JS代码的操作,就可以实现新页面被浏览即推送的效果,低成本实现链接自动提交。

同时,我们也支持主动推送和自动推送代码配合使用,二者互不影响。

结构化数据插件的作用
安装结构化数据插件,能又快又全的向百度提交论坛网页及内容。帮助百度Spider更好的了解您的网站,帮助收录,对于优质的数据资源,可应用结构化摘要样式优化网站在百度搜索结果页的展现。根据社区论坛软件系统的不同,结构化插件分为:Discuz! 结构化数据插件和WordPress 结构化数据插件,二者的功能基本一致。 

结构化数据插件使用指南
步骤一:下载适合版本的插件,解压文件至论坛根目录下:Discuz! 用户解压至source/plugin下;Wordpress用户解压至 wp-content/plugins下;
步骤二:以管理员账号登陆平台环境,在管理中心应用页面-安装新插件目录下,找到插件“baidusubmit”直接安装;(使用WordPress插件的站长,可跳过该步骤)
步骤三:在管理中心应用页面-插件列表目录下,启用“baidusubmit”插件;
步骤四:启用插件后,验证论坛网址,验证成功,插件安装完成。

DISCUZ!结构化数据提交插件安装帮助
步骤一:依据Discuz !平台环境类型,选择适合的版本下载插件。下载后,解压缩文件至Discuz平台目录/home/work/discuz/source/plugin

步骤二:用管理员账号登陆Discuz!平台环境,进入管理中心。如下图:



步骤三:进入管理中心“应用”页面,点击“安装新插件”选项,选择“baidusubmit”插件并安装。如下图:


友情提示:baidusubmit有两个版本,请依据Discuz!平台环境编码选择简体中文版或简体中文UTF-8版。如下图:



步骤四:进入左侧导航“插件”,选择“插件列表”选项,“启用”插件。如下图:


步骤六:验证成功,即开始向百度实时推送论坛数据,可随时查看近期数据推送状态。如下图:

其他:若不想使用插件,在插件列表中找到该插件,点击右侧的“关闭”按钮,若要卸载插件,点击右侧“卸载”按钮即可。


结构化数据插件常见问题
问:我通过结构化数据插件提交了很多数据,为什么很多都没有收录?
答:通过插件提交的数据,不保证所有都收录

问:通过插件百度收录了我的数据,但有些url的展现依然是普通样式
答:收录的URL,不保证都有上图的结构化摘要展现

问:结构化数据插件使用异常应该从哪里进行反馈?
答:使用过程中如有任何建议和意见,请通过站长反馈中心进行反馈。

什么是死链&死链的标准
页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
  1)协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
  2)内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
  目前内容死链召回存在召回率的风险,所以建议各位站长尽量使用协议死链,以保证平台工具更好地发挥其作用。

什么是死链规则?
死链规则是链接前缀,且匹配前缀的链接全部是死链。
  目前支持两种死链规则:
  1)目录规则:以“/”结尾的前缀
  2)CGI规则:以“?”结尾的前缀

为什么要使用死链工具
当网站死链数据累积过多时,并且被展示到搜索结果页中,对网站本身的访问体验和用户转化都起到了负面影响。另一方面,百度检查死链的流程也会为网站带来额外负担,影响网站其他正常页面的抓取和索引。


如何使用死链工具
第一步,处理网站已存在的死链,制作死链文件筛查网站内部存在的死链,并将这些死链页面设置成为404页面,即百度访问它们时返回404代码。将需提交的死链列表制作成一个死链文件,制作方法请参阅帮助文档(与sitemap格式及制作方法一致)

第二步,将死链文件放置在网站根目录下
比如您的网站为example.com,您已制作了一个silian_example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_example.xml

第三步,登录百度站长平台

第四步,提交网站并验证归属:具体验证网站归属方法可见帮助文档

第五步,提交死链数据
  1.选中左侧“死链提交”
  2.点击右侧“添加新数据”
  3.提交死链文件:填写死链文件地址(如:www.example.com/silian_example.xml),选择更新时间,进行提交
  4.管理已提交的死链列表

提交完之后,可在死链工具列表里看到提交的死链文件,如果死链文件里面有新的死链,可以选择文件后,点击更新所选,即对更新的死链链接进行了提交。整体流程如下图:




死链提交工具常见问题

问:百度不是会自动识别死链吗?这个工具有什么附加作用?
答:Baiduspider发现并处理死链是需要时间的,使用工具可以将最耗时的“发现”过程缩到最短。同时死链提交工具还可以与其它平台工具配合使用。

问:死链提交工具的生效周期是怎样的?
答:理论上三天可以生效,如果一周后死链仍在线上,可以进行再次提交。

问:百度死链提交支持这种形式吗?*.a.example.com
答:不支持,需要做成xml文件上传提交。

问:提交死链的文件和sitemap中的URL列表有冲突会不会有负面影响
答:如果该url为死链,不会通过sitemap收录该url;如果该url为活链,有可能影响死链文件的整体生效。

问:死链提交工具直接提交一整个目录吗?
答:不可以,目前没有此功能。


使用网站改版工具前,站点应该做哪些工作
1)首先您要将改版前的旧链接全部通过301跳转到改版后的新链接,并且这种跳转必须是一一对应的关系,不能出现多条旧链接跳转到一条新链接,或者一条旧链接在不同时间内跳转到不同新链接的情况。
  2)如果改版后产生新的站点,无论是www主站点还是二级域名,都需要将新站点在百度站长平台进行验证,以保证明您拥有该站点的管理权限。


网站改版工具如何使用
当一个站点的域名或者目录发生变化时,例如a.com变为b.com,或者a.com/b变成a.com/c,如果想让百度快速收录变化之后的新链接、用以替换之前的旧链接,那么您就需要使用百度站长平台的网站改版工具来提交您的改版关系,加速百度对已收录链接的新旧替换。目前网站改工具支持以下方式的改版:

1)换域名:仅域名发生了变换,如www.a.com变为www.b.com,而目录结构没有任何变化。可以在网站改版工具的“添加改版规则”——“站点改版”处,添加改版前后的两个域名,提交即可。注意此处提交的前后域名必须是不同的。

2)目录结构改版:不管域名是否改变,目录结构发生了变化,如www.a.com/a变为www.a.com/b,或又如www.a.com/c变为c.a.com。可以在网站改版工具的“添加改版规则”——“规则改版”处,提交新旧目录正则式,正则式的书写方式详见“正则格式说明”。

3)部分URL改版:当您的网站点仅有部分URL发生了改版,正则式不能满足改版形式的表达,或前两种方式提交的规则校验失败,您还可以通过提交url对文件,将已经改版的旧链接和对应的新链接提交给百度:文件格式为每行前后两个url,分别是改版前旧链接和跳转后新链接,中间用空格分隔,一个文件最多可以提交5万对url,您可以提交多个文件。另外您还可以在输入框中直接输入url对,格式与文件相同,但这处一次性仅限提交2000对url。

在您提交改版规则后, 网站改版工具会提供状态说明:

1)规则校验中:百度站长平台会对管理员提交的改版规则进行校验,当认为实际情况与您提交的规则相符时,才会对规则进行生效处理,这个校验时间最长为2小时。

2)校验失败:当百度站长平台发现站点存在如下问题时,会判为校验失败,不会进行后续的生效处理:
  a、提交重复规则:如果您当前提交的规则包含了正在生效的规则(状态为改版中或改版完成),则认定新提交的规则无效,您需要删除旧规则后再提交新规则,或者直接修改新规则。
  b、未设置301跳转:对于存在改版关系的url对,我们要求通过301进行跳转。
  c、旧链抓取失败:改版规则中旧链接无法正常访问。
  d、新链抓取失败:改版规则中新链接、即跳转过去的链接无法正常访问。
  e、跳转关系与规则不符:您提交的三种规则必须是真实的url对跳转关系,否则不予通过。
  f、url与所提交站点不匹配:三种规则都会要求您填写新旧链接对应的站点信息,如果提交的url对与站点信息不匹配会报此错误信息。
  g、正则格式不正确:请按照规定的格式进行填写,详见:“正则格式说明”。
  h、url对文件格式不正确:要求的url对文件格式为:每行有两个url,用空格分隔,最多5万行。
  i、多跳一:链接跳转关系中出现了多条链接跳转到一条链接的情况。

这些错误信息会抽样展示在错误详情页面中。

3)无需改版:网站改版工具只适用于改版前的旧链接已被百度收录,对于未收录的旧链接,我们无法进行处理。

4)改版进行中:您提交的改版规则通过校验后,百度站长平台会进行生效处理,这个过程最长为48小时。

5)改版完成:百度已经根据您提交的改版规则对新旧链接进行了替换。

请注意,改版完成后,百度会持续一段时间例行检查改版规则在您网站的生效状态,一旦连续发现改版规则出现校验失败原因中的问题,该规则的状态会由“改版完成”调整为“校验失败”状态,此时需要您修正站内异常并重新提交改版规则。所以请尽可能长时间(至少三个月)保持新旧链接的跳转关系。



网站改版工具注意事项
  1)改版规则中的新旧链接一定要使用301的方式进行跳转。
  2)建议您尽量使用站点改版和规则改版,会有比较短的处理周期,也缩短后续您反馈问题的追查用时。
  3)百度站长平台对改版规则的校验时间范围为0.5——2小时,改版生效时间范围为12——48小时,整体来看,您从提交改版规则到线上生效,最短12.5小时,最长50小时。
  4)改版完成后不要立即清除跳转关系,保持跳转关系至少三个月,网站避免出现校验失败原因中的问题。

正则格式说明
以站点news.a.com改版到站点a.com/news为例:
改版前url地址为http://news.a.com/09/1001/07/5KH8DE1F000120GR.html,
其对应的改版后url地址为http://a.com/news/09/1001/07/5KH8DE1F000120GR.html

步骤一:确定改版前链接中的可替换参数或者路径,得到其位置序号和类型。
改版前页url:

根据网站自身url的层次结构,其中09,1001,07和5KH8DE1F000120GR为动态可替换的路径。除5KH8DE1F000120GR为字母和数字混合外,其余均为纯数字。

步骤二:根据可替换参数或路径的类型,得到改版后链接的表达形式。
使用正则匹配符号(\d+)或者(\w+)表示该路径或参数。(\d+)表示纯数字字符串,(\w+)表示字母数字下划线组成的字符串。


步骤三:根据改版后url,以及可替换参数在步骤一中的位置序号,依次用${1},${2},……表示替换掉改版前url中的可替换参数或路径,得到改版后链接pattern形式。


至此,便得到了改版前后的规则:
http://news.a.com /(\d+)/(\d+)/(\d+)/(\w+).html
http://a.com/news/${1}/${2}/${3}/${4}.html


什么是站点索引量

  站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。
  站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。
  目前site语法的数值是索引量估算值,比较不准。推荐站长们使用我们的新工具,同时我们也正在努力改进site语法。 


如何使用百度索引量工具
第一步,注册并登录百度站长平台;
第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档;
第三步,选择左侧“百度索引量”,定制百度索引量查看规则
第四步,得到站点的百度索引量数据。

如何定制百度索引量查看规则
  可以通过“*”号自定义规则来查看某些特征集合的页面索引量数据。“*”号放在规则结尾可匹配到包含“/”在内的任意字符串,放在规则其他位置匹配不包含“/”的任意字符串,具体可参考下列示例:
1.http://*.baidu.com/* 表示 http://baidu.com/ 站点及其子站的所有页面
2.http://wenku.baidu.com/* 表示 http://wenku.baidu.com/ 站点下的所有(包含各级子目录)页面
3.http://wenku.baidu.com/doc/* 表示 http://wenku.baidu.com/ 站点下 doc 目录下(包含各级子目录)的页面
4.http://wenku.baidu.com/doc/*/ 表示 http://wenku.baidu.com/ 站点下 doc 目录下的页面,不含这些页面下的子目录页面
5.http://wenku.baidu.com/doc*/* 表示 http://wenku.baidu.com/ 站点下以 doc 开头的目录下(包含各级子目录)的页面

百度索引量工具常见问题
问:工具里展示的数据是每天更新吗?怎么有时过了两天还没有更新?
答:百度索引数据最快每天更新一次,最迟一周更新一次,不同站点的更新日期可能不同

问:索引量数据会保存多久?
答:您可以查询到近一年中每天的索引量数据,一年前的索引量数据为每月索引量数据

问:我仅验证二级域名,是否可以查到主域的索引量数据?
答:不可以,必须验证主域名和顶级域名


关于索引量,你必须知道的事
网站被Baiduspider抓取收录后,经过一系列计划才得以建入索引库,有了和搜索用户见面的机会。所以,索引量一直是站长们关注的焦点,但我们发现,依然有很多站长对索引量存在误读。于是学院整理了一些常见问题,纠正一些错误的看法。

误:站长可以通过site查询站点收录量
正:索引量数据以百度站长平台索引量工具为准,SITE仅为估值

误:索引量增加了,流量就会多;索引量减少,流量危险
正:索引量分多个层级,进入上层索引库才有更多与搜索用户见面的机会;进入下层库机会渺茫。所以,索引量总体的增加减少并不能说明流量会有什么变化

误:站长应该每天查看索引量数据,发现不符合预期的变化就反馈
正:当流量发生巨大变化时,索引量数据可以作为排查原因的渠道之一,其余时间没有必要天天关注

误:索引量只能增加不能减少
正:索引量上下浮动10%,甚至更多,都可能属于正常。只要流量变化不大就不用紧张。


什么是关键词影响力? (暂时在移动端上线)
关键词影响力,是百度站长平台针对站点对于关键词数据分析的需求,推出的全新概念。

站点关键词影响力:在具体关键词下,站点获得的收益对应的关键词影响力;

最大关键词影响力:在具体关键词下,获得收益最高的站点影响力;

整体关键词影响力:在具体关键词下,百度为全部站点带来的全部收益产生的影响力总值;

关键词影响力算法复杂,涵盖该关键词下百度搜索可以为站点带来的全部收益指标,包括:排名、百度搜索流量、展现量等。

  
关键词影响力三个数值如何分析? 
通过查看自身站点关键词影响力、最大关键词影响力和全盘关键词影响力,可以得到自身站点与行业标杆之间的差距,自身站点在具体关键词下的全盘占比,自身站点对具体关键词的优化上升空间及优化性价比。

对站长SEO工作的收益和效果进行量化,对上升空间、行业差距,全盘情况及变化趋势等信息一目了然。


搜索关键词工具里出现的展现量、导流量、点击率、排名都是什么?
展现量:搜索用户在百度搜索引擎查询某关键词时,看到您网站的次数;

导流量:仅统计从百度搜索结果页点击进入您网站的次数;

点击率:导流量和展现量的比值,在一定程度上表征了网站的优化空间,点击率越小,网站的优化空间越大;

排名:在热门关键词和热门页面列表中给出的排名是平均排名,表征在相应时间段内,搜索用户在查询某关键词时,落地页在百度搜索结果页的平均排名,是统计数据。


热门关键词和热门页面分别指什么?
热门关键词:用户在百度搜索引擎中进行查询时,您网站获得流量(点击量)较多的关键词。工具最多可以提供5W个关键词,默认按点击量降序排序。您可以通过热门关键词,查看用户通过相应的关键词访问了哪些页面。    

热门页面:用户在百度搜索引擎中进行查询时,您网站中获得流量(点击量)较多的URL。工具最多可以提供5W个热门页面,默认按点击量降序排序。您可以通过热门页面,查看到达相应页面的关键词。  


使用搜索关键词工具能给您带来什么?
搜索关键词工具不仅能够提供网站天级、周级及月度展现量、点击量数据,还能够提供站点的热门关键词在百度搜索结果中的展现及点击量数据,及网站热门关键词在今天(有大约5小时的数据延迟)、昨天、最近7天、最近30天、30天内自定义时间段等不同时间维度的展现量及点击量数据,最高可展现5W条关键词数据。工具旨在全面帮助站长了解网站在百度搜索引擎中的表现,决定页面及网站的优化方向,为网站运营决策提供分析依据。

什么是抓取异常
  Baiduspider无法正常抓取,就是抓取异常。

抓取异常对网站有哪些影响
  对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

抓取异常的原因有哪些
一、网站异常

1、dns异常
  当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

2、连接超时
  抓取请求连接超时,可能原因服务器过载,网络不稳定

3、抓取超时
  抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足

4、连接错误
  无法连接或者连接建立后对方服务器拒绝

二、链接异常

1、访问被拒绝
  爬虫发起抓取,httpcode返回码是403

2、找不到页面
  爬虫发起抓取,httpcode返回码是404

3、服务器错误
  爬虫发起抓取,httpcode返回码是5XX

4、其他错误
  爬虫发起抓取,httpcode返回码是4XX,不包括403和404

什么是抓取诊断
抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。

抓取诊断工具能做什么
目前抓取诊断工具有如下作用:
1、诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。


2、诊断网页是否被加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需要用此抓取工具诊断。

3、检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP。


抓取诊断工具常见错误类型解析

【url规范】
百度支持抓取的url长度不超过1024,如果您的链接长度过长,请在保证正常访问的情况下,适当精简,保证链接能被百度正常抓取和收录。

【重定向错误】
重定向是指百度spider访问链接时发生了跳转,如果跳转后的链接超长或者连续跳转的次数超过5次,就会发生重定向错误而导致抓取失败。

【服务器连接错误】
这种情况是指,由于服务器响应过慢或您的网站屏蔽了百度spider,而导致百度无法访问您的网站。从而会导致百度无法正常收录或者更新您网站的内容。您可能看到以下具体错误:连接超时、连接失败、连接被拒、无响应、响应遭到截断、连接重置、标头遭到截断、超时。

*如何处理服务器连接错误?
减少动态网页请求的过多网页加载。如果网站为多个网址提供相同内容,则会被视为动态提供内容(例如,www.example.com/shoes.php?color=red&size=7与www.example.com/shoes.php?size=7&color=red提供的内容相同)。动态网页的响应时间可能会很长,并会因此导致超时问题。或者,服务器可能会返回超载状态,要求百度spider放慢抓取该网站的速度。一般来说,建议您尽量使用简短的参数并谨慎使用。

确保您网站的托管服务器没有停止运行、超载或配置不当。如果连接问题、超时问题或响应问题仍然存在,请与您的网站托管服务提供商联系,并考虑增强您的网站处理流量的能力。

检查网站是否不小心屏蔽了百度spider的IP。您可能会由于系统级问题而阻止了百度访问,例如DNS配置问题、配置不当的防火墙或DoS防护系统、内容管理系统配置问题。防御系统是保证托管服务正常运行的关键因素之一,并且这些系统通常会配置为自动阻止超量的服务器请求。由于百度spider发出的请求通常要比普通用户多,因此可能会触发这些防御系统,导致它们阻止百度spider访问并抓取您的网站。要解决此类问题,您需要确定网站基础架构中的哪个部分在阻止百度spider,然后取消该阻止。如果您没有控制防火墙的权限,就需要与您的托管服务提供商联系解决此问题。

【robots封禁问题】
在抓取诊断工具中如果返回的抓取失败结论是robots封禁,请确认您是否对该网址设置了robots,阻止百度spider抓取网站的某些内容,如果您未使用robots文件屏蔽百度,请点击旁边的报错链接,百度会立即更新您站点的robots信息;如果是您的误操作导致了封禁,请及时修改robots文件,避免造成您的网站在百度收录量和流量的下降。

【DNS问题】
DNS错误是指由于服务器停止运行或DNS到您网域的路由存在问题,导致百度spider无法与DNS服务器通信。

*如何处理DNS错误?
确保百度能够抓取您的网站。对重要网页(例如您的首页)采用抓取诊断工具,如果它能顺利返回您的首页内容,那么您就可以认为百度能够正常访问您的网站。

对于持续的或反复出现的DNS错误,请与您的DNS提供商联系。通常情况下,您的DNS提供商即为网站托管服务提供商。

配置您的服务器,使其能够以404或500等HTTP错误代码对不存在的主机名作出响应。

【404错误】
一般情况下,当百度spider访问到不存在的网页(因为您删除或重命名了网页且没有将旧网址重定向到新网页,或者链接中存在拼写错误)时,就会出现“未找到”状态错误(通常是404 HTTP状态代码)。

【访问遭拒绝】
一般情况下,百度会通过跟踪网页间的链接来查找内容。百度spider必须能够访问某个网页才能抓取该网页。如果您意外地看到了“访问遭拒”错误,可能是由于以下几种原因导致的:
(1)百度spider无法访问您网站上的网址,因为您网站上的所有或部分内容要求用户登录后才能查看。
(2)您的服务器要求用户使用代理进行身份验证,或者您的托管服务提供商阻止百度spider访问您的网站。

【参数错误】
由于请求的语法格式有误,不符合服务器对请求的某些限制,或者请求本身存在一定的错误,服务器无法理解此请求,导致抓取失败。

【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。

【读取http头或者页面内容时失败】
您的服务器收到了我们的完整请求,但是返回信息时不完整,http头或者响应正文发生了截断,导致网页内容不能正常读取。

外链工具有何作用
1、结合谈外链判断对站点的问题外链进行处理,并对以后的链接建设起到积极的作用;
2、基于我们提供的外链数据,您可以进行多种维度的重组聚合,进而了解自身在外链建设上的情况以及与竞争对手的对比情况。

如何使用外链工具进行外链分析
  此数据是未经百度搜索计算过滤的原始数据,仅供参考。登录您在百度站长平台注册的账号,进入站长工具à网站分析à外链分析,此时您可以:
  第一、查看一段时间内您网站自身或某其他网站的外链趋势走向;


  第二、进一步可查看您网站自身的具体外链数据。当您苦恼于曾经在外链建设过程中某些外链影响到您网站在百度系统中的评价时,那么拒绝外链功能可以使您不再苦恼,同时支持单条拒绝和批量拒绝。其中,批量拒绝可分为四个级别进行批量操作:主域、站点、目录、页面,您可以按照需要进行操作,每次最高1000条。结合谈外链判断,对指向您网站的问题外链进行拒绝操作,当问题外链提交至百度系统中并在一段时间的更新后,系统将根据情况自动调整对您网站的评价;

  第三、如果您因疏忽而误将重要外链提交拒绝,那么也不要过于担心,可以通过撤销拒绝来恢复。当然,我们希望您不要过于粗心,系统难免出现问题将造成不必要的损失;

  第四、您可以查看并下载任一网站的外链数据,以便于您进行自身网站外链分析以及竞争对手对比分析。不同的聚合重组,将使您得到多种重要的结论。举两个例子:
  (1)自身某专题页排名不如竞争对手,当其他方面相差不大的情况下怀疑是外链因素造成。此时就可以将两个专题页的外链进行聚合对比分析,找出差距,兼顾质量和数量,着重分析外链产生的原因及过程。当然,分析的数据前提是根据谈外链判断将问题外链排除之后的数据,同时欢迎举报。
  (2)按anchor进行聚类,可分析某页面传播过程中用户以及其他网站对该内容的定位,您在之后的外链建设传播过程进行适度调整。

  总之,详细外链数据下载后根据自身需求可进行多方面的聚合分析,各位站长也可以在站长社区show出你的分析案例。

如何使用外链工具拒绝垃圾外链

第一,什么是拒绝外链?
  外链是百度判断网页重要性数百个因素中很重要的一个方面。百度尽可能避免第三方网站上的行为对您网站产生负面影响。但某些情况下,一些垃圾、低质量导入链接可能会影响百度对您网站的评价。例如,网络上大量的垃圾内容或质量很差的链接或者您购买了付费链接、采用了违反百度站长指南的链接手段。
  首先,我们建议您从链接来源页面尽可能多的删除垃圾内容和链接。
  其次,再没有任何其他措施可以删除剩余垃圾链接的情况下,就可以利用拒绝外链工具来通知百度在评价您网页之时忽略掉该链接。

第二,拒绝外链应该注意什么?
  当您发现指向您网站的垃圾链接、虚假或低质量链接数量可观,同时确定这些链接会给您的网站造成负面影响,再使用该工具,否则请勿使用。当您确认拒绝后将无法撤销或删除,请谨慎使用。
  如果您存在购买链接、群发外链、挂黑链等试图操作搜索引擎排序的作弊行为,我们不能保证短时间内去除掉该垃圾外链对您网站的负面影响,这需要数周乃至更长的时间来验证,请您耐心等待。

第三,如何使用拒绝外链工具?

  请先选择您希望拒绝的外链类别,类别主要分为主域、站点、目录和页面。主域是指在域名服务商注册的域名,如:example.com;站点是指网站的根目录之前的url,网站地址,如:www.example.com/;目录是指站点后以“/”结尾的,如:www.example.com/a/;页面是指一个具体页面的url,如:www.example.com/a/978.html。
  以url:www.iqiyi.com/fun/20130308/4319a1351bb0167d.html为例,该url即为一个页面;主域为iqiyi.com;站点为www.iqiyi.com;www.iqiyi.com/fun/为一个目录。
  根据您选择的类别填写相对应的url提交拒绝信息即可。我们需要一定的时间来处理您提交的信息,拒绝外链生效的周期为数周,请您耐心等待。

外链工具常见问题
问:拒绝外链多长时间生效?
答:拒绝外链没有固定生效的周期,时间长达数周,请您耐心等待。

问:拒绝后的外链是否可以恢复?
答:不可以。当您确认拒绝后将无法撤销或删除,请谨慎使用。


什么是抓取频次
  抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

什么情况下可以进行抓取频次上限调整
首先,Baiduspider会根据网站服务器压力自动进行抓取频次调整。其次,如果Baiduspider的抓取影响了网站稳定性,站长可以通过此工具调节Baiduspider每天抓取您网站的频次上限。
  强调1:调整抓取频次上限不等于调高抓取频次。
  强调2:建议您慎重调节抓取频次上限值,如果抓取频次过小则会影响Baiduspider对网站的收录。



鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

精彩阅读

推荐视频

排行榜

用SEO技术用心服务创业者
周一至周五 9:00-18:00
意见反馈:wb@seo168.com

扫一扫关注我们

Powered by 168网络营销学院 X3.3© 2001-2018 www.seo168.com.