1. 百度蜘蛛(Baiduspider)
-
User-Agent:Baiduspider 或 Baiduspider-image
-
IP范围:
-
IPv4:主要来自中国,常见段如 180.76.0.0/16、220.181.0.0/16、111.206.0.0/16。
-
IPv6:2400:da00::/32。
-
-
验证方法:
通过 nslookup 反向解析IP,若结果为 *.baidu.com 或 *.baidu.jp 即为真实蜘蛛。
2. 360蜘蛛(360Spider)
-
User-Agent:360Spider
-
IP范围:
-
中国境内IP段,如 101.199.0.0/16、106.120.0.0/16。
-
动态IP,无固定范围。
-
-
验证方法:
官方未提供反向解析服务,需结合User-Agent和访问频次判断。
3. 搜狗蜘蛛(Sogou Spider)
-
User-Agent:Sogou web spider
-
IP范围:
-
中国IP段,如 106.120.0.0/16、220.181.0.0/16。
-
部分IP与百度蜘蛛重叠。
-
-
风险提示:
搜狗蜘蛛可能高频抓取,需通过robots.txt限制频率。
4. 必应蜘蛛(Bingbot)
-
User-Agent:Bingbot
-
IP范围:
-
微软官方公布的IP段(持续更新):
-
IPv4:13.64.0.0/11、40.74.0.0/15、157.55.0.0/16 等。
-
IPv6:2620:1ec:c11::200/120。
-
-
完整列表参考:Bing官方文档。
-
-
验证方法:
反向解析IP,若域名含 search.msn.com 则为真实Bingbot。
5. 谷歌蜘蛛(Googlebot)
-
User-Agent:Googlebot(含移动版Googlebot-Mobile)
-
IP范围:
-
Google公布的IPv4/IPv6段(动态更新):
-
IPv4:66.249.64.0/19、64.233.160.0/19 等。
-
IPv6:2001:4860:4801::/48。
-
-
完整列表:Google官方文档。
-
-
验证方法:
反向解析IP,若域名以 googlebot.com 结尾即为真实爬虫。
6. AhrefsBot
-
User-Agent:AhrefsBot
-
IP范围:
-
主要数据中心IP,如 54.36.148.0/24(法国)、195.154.122.0/24(荷兰)。
-
官方公布列表:Ahrefs IP列表。
-
-
风险提示:
AhrefsBot可能消耗大量带宽,建议在robots.txt中限制:robots.txt复制User-agent: AhrefsBot Disallow: /
7. Cloudflare爬虫
-
User-Agent:Cloudflare Radar Bot
-
IP范围:
-
Cloudflare数据中心IP,如 172.69.0.0/16、104.21.0.0/16。
-
官方列表:Cloudflare IP。
-
-
用途:
用于网络威胁监测和流量统计,非恶意爬虫。
-
动态IP特性:蜘蛛IP可能随时变动,建议定期更新验证规则。
-
防伪造:恶意爬虫可能伪装User-Agent,需结合反向DNS验证。
-
流量控制:通过服务器日志分析蜘蛛行为,必要时使用防火墙/IP黑名单拦截异常请求。