mj12bot是什么? 半个小时爬取800多,禁止蜘蛛MJ12bot抓取网站信息

时间:2020-05-27 11:14:59

打开网站突然看到新增蜘蛛爬虫900多,事出异常必有妖,查看分类,发现出现大量不知名爬虫

MJ12bot蜘蛛爬虫

具体爬虫userAgent:mozilla/5.0 (compatible; mj12bot/v1.4.8; http://mj12bot.com/) IP地址:50.110.90.139

查阅资料显示 MJ12bot是英国的一家老牌的搜索引擎营销网站Majestic的爬虫MJ12bot是Majestic-12分布式搜索引擎的爬虫),他有专门的中文站,对外链查询等很多SEO数据查询提供数据支撑,做过外链的都知道,获取外链资源是一项基本能力,这个网站可以查询网站的外链资源数,不过很多公司看到日志里有这个MJ12bot蜘蛛,中文是选择直接屏蔽掉,爬行相当耗费资源,且对国内用户不提供服务。

如果你不想此蜘蛛访问可以直接在robots.txt添加规则,限制mj12bot 爬取网站,禁止这些无用的蜘蛛如MJ12bot等抓取网站信息

User-agent: MJ12bot

Disallow: /

猜你喜欢

版权所有:2019-2021 无双建设   网站地图