Loading... # MJ12bot 爬虫 最近在查网站日志的时候发现了一只 `MJ12bot`爬虫,去官网也没看出个所以然,这里贴出 [爬虫官网](https://mj12bot.com/)[分布式搜索引擎介绍](https://zh.majestic.com/company/about) MJ12bot是英国的一家老牌的搜索引擎营销网站Majestic的爬虫,他有专门的中文站(MJ12bot是Majestic-12分布式搜索引擎的爬虫) --- 这个爬虫爬得老欢快了,一天几百次访问,一般来说,这些不能带来流量的爬虫,而且消耗资源较多,是需要我们屏蔽掉的。 --- 在robots.txt添加进下面内容即可屏蔽 MJ12bot 爬虫 ```rotobs.txt User-agent: MJ12bot Disallow: / ``` --- 亦或者是降低爬虫频率 ```rotobs.txt User-Agent: MJ12bot Crawl-Delay: 5 ``` 抓取延迟应为整数,表示两次请求之间等待的秒数。MJ12bot将在两次向您的站点发出请求之间最多延迟20秒-但是请注意,尽管这不太可能,但您的站点仍可能同时从多个MJ12bot爬网。进行较高的抓取延迟可以最大程度地减少对您的网站的影响。如果将此Crawl-Delay参数用于*通配符,则该参数也将处于活动状态。 如果我们的机器人检测到您对其他任何机器人都使用了抓取延迟,则即使没有特别要求MJ12bot,它也会自动缓慢爬行。 --- 爬虫支持的robots.txt规格 当前的搜寻器支持robots.txt的以下非标准扩展: * 抓取延迟最多20秒(较高的值将四舍五入到我们的漫游器支持的最大值) * 尝试获取robots.txt时重定向(在同一站点内) * 与Yahoo的通配符规范兼容的Disallow指令中的简单模式匹配 * 如果指令更具体(长度更长),则Allow指令可以覆盖Disallow * 某些无法获取robots.txt的错误(例如403 Forbidden)将被视为一揽子禁止指令 --- Last modification:July 27th, 2020 at 03:17 pm © 允许付费转载 Support 如果觉得我的文章对你有用,请随意赞赏 ×Close Appreciate the author Sweeping payments Pay by AliPay
真心觉得这个东西烦人
有一些版权方会使用这家的爬虫来进行检测网站中是否包含侵犯版权文件。比较建议屏蔽。
我准备用robot来限制,希望他可以真的去读robot,不然的话,那个robots写出来也是没有用 ::aru:knife::