CDN源站屏蔽搜索引擎爬虫

前言自从全站使用阿里云CDN之后,网站访问速度得到了很明显的提升,同时阿里云CDN的稳定性也很棒。但最近这段时间发现,百度和谷歌的爬虫开始爬我的源站了。这就有点麻烦了,要是不赶紧解决,给主站降权就不好了。思路因为蜘蛛爬了不该爬的东西,解决思路自然是限制蜘蛛的爬取。大概有三种方法可以限制蜘蛛的抓取:1.robots.txt文件robots文件用于限制搜索引擎蜘蛛的行为,在源站屏蔽蜘蛛主要是为了限制蜘

  引言

  自打整站应用阿里云服务器CDN以后,网址网站打开速度获得了很显著的提高,与此同时阿里云服务器CDN的可靠性也非常好。但近期这段时间发觉,百度和谷歌的网络爬虫逐渐爬我的源站了。这就有点儿麻烦了,如果不赶快处理,给分站被降权惩罚就不好了。

  构思

  由于蜘蛛爬了不应该爬的物品,处理构思当然是限定搜索引擎蜘蛛的抓取。

  大约有三种方式 可以限定搜索引擎蜘蛛的爬取:1.robots.txt文件

  robots文件用以限定百度搜索引擎爬虫的个人行为,在源站屏蔽掉搜索引擎蜘蛛主要是为了更好地限定搜索引擎蜘蛛相同程序流程下不一样网站域名的爬取。可是robots.txt文件沒有可以限定网站域名有关的主要参数,只有限定搜索引擎蜘蛛对现阶段网站域名下文档的爬取,此路不通。2.设定META标识

  当访问者浏览的网站域名并不是分站网站域名时,在页面的标识中嵌入限定搜索引擎蜘蛛主题活动的內容,完成起來非常简单,仅用改动一下模版中的header文件就可以。3.鉴别搜索引擎蜘蛛的UA,在网站源代码上做限定

  获得访问者的User-Agent,如果是百度搜索引擎爬虫的UA,则自动跳转至分站。也有一个问题,便是要去在网上搜集每家百度搜索引擎爬虫的UA,惦记着就累。

  人懒,就挑选设定META标识的方式。

  实践活动

  第一步,在系统中获得访问者浏览的网站域名。这一歩也不最多详细介绍了,不一样语言表达和自然环境有不一样的方式获得,PHP可以根据如下所示句子获得来访者现阶段浏览的网站域名:

  $_SERVER[‘SERVER_NAME’];

  第二步,如果不为主导站网站域名,则輸出HEAD中的META标识限定搜索引擎蜘蛛的主题活动:

  if ($_SERVER['SERVER_NAME'] != 'www.kungg.com' {

  echo '';



文章正文:鲁大师seo

<!– 文章来源:不明
–>
标题:CDN源站屏蔽掉百度搜索引擎网络爬虫

原创文章,作者:鲁大师seo,如若转载,请注明出处:http://www.luseo.cn/archives/8700.html