盘点2020年最新各种搜索引擎蜘蛛大全及网址日志分析

来源:本站原创 浏览:1785次 时间:2020-06-17
做网站找雨过天晴工作室

盘点2020年最新各种搜索引擎蜘蛛及网址日志分析

最近几天一直在观察网站蜘蛛,发现 77.88.5.55 , 俄罗斯 - 列宁格勒 - 圣彼得堡这类的IP很多,查了下是YandexBot蜘蛛,是俄罗斯的搜索引擎Yandex,目前全世界搜索引擎排第九,Yandex月独立访问者:0.3亿、Yandex搜索引擎是俄罗斯第一大搜索引擎,创建于1997年,目前已经发展成为一个提供搜索、图片共享、社交网络、网络支付、免费网站托管、以及其它服务的门户网站。


目前几个蜘蛛识别的代码

1、百度蜘蛛:baiBaiduspider

百度蜘蛛最新名称为Baiduspider,日志中还发现了Baiduspider-image这个百度旗下蜘蛛,我们直接看名字就可以知道它是干嘛的,是专门用以抓取图片的蜘蛛。常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。

备注:以上百度蜘蛛目前最为常见的是,Baiduspider和Baiduspider-image这两种。


2、google谷歌蜘蛛:Googlebot


谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”,除此还发现了Googlebot-Mobile,看名字显然是抓取wap内容的。
3、360蜘蛛:360Spider
4、搜狗蜘蛛:SogouSpider

其名称为,Sogou News Spider。

搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider(参考一些网站的robots文件,搜狗蜘蛛名称可以用Sogou来简单概括)。看看最权威的百度的robots.txt ,http://www.baidu.com/robots.txt就为搜狗蜘蛛费了不少字节,占了一大块地方。

“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前主要有这么6个,名称都带空格。线上常见Sogou web spider/4.0、Sogou News Spider/4.0、Sogou inst spider/4.0″,可以为它颁个“占名为王”奖。

SOSO蜘蛛:Sosospider 已经退出搜索引擎和搜狗合并


5、雅虎蜘蛛:“zhiYahoo! Slurp China”或者Yahoo! 已经退出搜索引擎
6、有道蜘蛛:YoudaoBot,daoYodaoBot  已经退出搜索引擎
7、搜狗蜘蛛:Sogou News Spider、Sogou XXX spider等 已经退出搜索引擎
8、MSN蜘蛛:msnbot,msnbot-media
9、必应蜘蛛:bingbot
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜sou蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘网蜘蛛:EtaoSpider
另外还发现了如:YandexBot、AhrefsBot和ezooms.bot这些国外蜘蛛,如果我们的用户不在国外那么对中文网站用处很小,那是完全可以也是应该屏蔽的。因为,各大搜索引擎蜘蛛(机器人)来我们网站抓取下载内容,是非常耗费我们的网站资源的。所以作为站长,需要根据用户选择对我们的流量有利的几个常用的允许抓取,其余的都可以通过robots来加以屏蔽其抓取。

目前搜索引擎蜘蛛引导的最好的网站是分类目录网站,里面的分类和网址非常适合搜索引擎蜘蛛的爬取,新站和老站关键词的提升用分类目录都很不错,分析蜘蛛日志,用http://www.loghao.com/ 这个网站挺不错的,之前挂了几天,现在又满血复活!