常见搜索引擎蜘蛛爬虫UserAgent(UA标识)的汇总
User-Agent (UA) 是HTTP协议请求头的一部分,它提供了用户软件的信息,包括应用类型、操作系统、供应商和版本。搜索引擎爬虫频繁的爬行和较高的爬行频率,有时会对网站造成较大的负载。
搜索引擎爬虫作为搜索引擎获取和理解网页内容的工具,其User-Agent一般都是带有spider、bot字样,同时还会有搜索引擎厂商的标识,比如百度的是 Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html ,搜狗的是Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) ,不过这些类型都不是唯一的,有多种形式,以及上面部分信息也是会改变的。
百度蜘蛛(baiduspider)
百度PC蜘蛛
或
百度移动蜘蛛
或
百度小程序蜘蛛
Google 蜘蛛(googlebot)
Google PC蜘蛛
其中W.X.Y.Z是Chrome浏览器版本号。Google蜘蛛从2019年开始使用最新版本的Chrome引擎抓取、渲染页面,所以这个版本号会保持更新。
或(偶尔使用)
或(偶尔使用)
Google移动蜘蛛
Google图片蜘蛛
Googlebot-Image/1.0
Google视频蜘蛛
Googlebot-Video/1.0
360搜索蜘蛛(360spider)
搜狗蜘蛛(sogou)
搜狗PC蜘蛛
搜狗移动蜘蛛
Bing蜘蛛(bingbot)
其中W.X.Y.Z是Chrome和Edge浏览器版本号。和Google一样,Bing也使用最新版本的Microsoft Edge引擎抓取、渲染页面。Edge和Chrome一样,也使用Chromium内核,所以Bing蜘蛛用户代理字符串里还包含一个Chrome版本号。
头条搜索爬虫(bytespider)
- PC端:Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
- Android端:Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
- iOS端:Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
神马搜索的蜘蛛爬虫(YisouSpider)
YisouSpider的行为特点包括频繁的爬行和较高的爬行频率,有时会对网站造成较大的负载,尤其是对于VPS或内存较小的虚拟机,可能会导致网站崩溃或性能下降。此外,YisouSpider的爬行不受时间限制,白天和晚上都会进行爬行,且爬行次数和频率超过其他蜘蛛的总和.
雅虎搜索引擎的蜘蛛
Slurp的主要功能是抓取网页内容,帮助雅虎搜索引擎更新和索引互联网上的信息。与其他搜索引擎蜘蛛类似,Slurp会定期访问网站,抓取新的或更新的内容,并将其添加到雅虎的索引中。
总结
个人使用的蜘蛛列表:['baiduspider', 'googlebot', '360spider', 'sogou', 'bingbot', 'yisouspider', 'bytespider', 'slurp', 'yahoo', 'yandexbot', 'exabot', 'ia_archiver']
本文由主机测评网发布,不代表主机测评网立场,转载联系作者并注明出处:https://zhuji.jb51.net/jieda/11435.html