如何排除无关蜘蛛爬虫干扰优质搜索引擎蜘蛛抓取网站? - 老蒋SEO博客

老蒋博客

老蒋博客
首页>> SEO优化教程 >>如何排除无关蜘蛛爬虫干扰优质搜索引擎蜘蛛抓取网站? - 老蒋SEO博客

在搜索引擎优化过程中,你是否遇到过这样的问题:服务器访问的CPU利用率接近100%,页面加载速度特别慢,似乎受到了DDoS的攻击。  

经过回顾,我发现原来的目标网站经常被大量无关的“爬虫”抓走,这对一个小网站来说可能是一场灾难。  

因此,在进行网站优化时,我们需要有选择地引导特定的蜘蛛。  

根据以往SEO经验分享,小编将通过以下几点来阐述:  

一、搜索引擎爬虫  

对于国内的小伙伴来说,我们都知道在SEO的过程中,我们面对的最常见的爬虫就是搜索引擎的爬虫,比如百度蜘蛛,还有各种搜索引擎的蜘蛛,比如:  

①360Spider、SogouSpider、Bytespider  

②Googlebot、Bingbot、Slurp、Teoma、iauarchiver、twiceler、MSNBot  

③其他爬行动物  

如果不故意配置robots.txt文件,理论上,可以对目标页进行爬网和爬网。然而,对于一些中小型网站来说,它偶尔会浪费自己的服务器资源。  

此时,我们需要做出有选择性、合理的指导,特别是一些尴尬的问题,比如:你希望谷歌减少对网站的爬网,但不能完全屏蔽它,你可能需要一些提示,比如:对于具体的爬网访问,反馈不同的文章列表:  

①控制更新频率表  

②反馈重复性强,内容农场页面  

③善意的“蜘蛛陷阱”,如flash  

④如何调整对方的SEO管理平台,获取评论并进行适当调整  

虽然这样的策略很可能会对页面声誉造成损害,但我可以想出一个相对“有效”的方法,合理控制那些不想频繁爬行但需要不断爬行的蜘蛛的爬行。  

二、链接分析爬虫  

从目前来看,一个SEO外部链分析管理工具需要每天花费大量的服务器资源来抓取和检测每个网站的页面链接。  

对于一些资源密集型的网站来说,每天爬行数千次是可能的,这种爬行动物很常见。  

如果你不想让自己的网站参与其中,最简单的策略是在robots协议中完全关闭此类爬虫程序。  

三、内容收集爬网程序  

但当我们面对一些恶意的内容收集爬虫时,就相对尴尬了。另一方经常采用“看不见”的状态,比如:模拟一个著名搜索引擎蜘蛛的名字。  

要解决这个问题,只能手工判断对方庐山的真伪,比如:使用IPpan解析命令判断真伪。  

①Linux平台:主机IP  

②Windows平台:nslookupip  

从而确定对方的解析地址是否为相应的搜索引擎域名。  

四、蜘蛛池爬行动物  

目前,市面上有很多人做百度蜘蛛池,其主要目的是协助更多的页面做百度快速收录,但由于一些随意下载蜘蛛池的程序设计不规范。  

由于没有对不同的蜘蛛进行合理的抓取和限制,服务器资源经常被服务提供商占用,很容易被关闭。  


×

感谢您的支持,我们会一直保持!

扫码支持
请土豪扫码随意打赏

打开支付宝扫一扫,即可进行扫码打赏哦

分享从这里开始,精彩与您同在

打赏作者
版权所有,转载注意明处:老蒋SEO博客 » 如何排除无关蜘蛛爬虫干扰优质搜索引擎蜘蛛抓取网站?

发表评论

路人甲 表情
看不清楚?点图切换 Ctrl+Enter快速提交

网友评论(0)

北京seo、天津seo、上海seo、重庆seo、河北seo、山西seo、辽宁seo、吉林seo、黑龙江seo、江苏seo、浙江seo、安徽seo、福建seo、江西seo、山东seo、河南seo、湖北seo、湖南seo、广东seo、海南seo、四川seo、贵州seo、云南seo、陕西seo、甘肃seo、青海seo