世界上有多少网络爬虫?

小麦2025年05月05日411 字

cover图片来源:ChatGPT

前段时间为网站接入了腾讯云的日志服务,从服务端上报所有页面的访问情况,其中就包含 user-agent 请求头。我想看看访问我网站的用户都是什么设备。当然部署在前端的监控脚本和许多监控平台也能做这件事,不过我的架构是云服务解耦的,为了全站监控的一致性和灵活性,还是选择在服务端自行上报。

浏览日志发现大量的请求都来自于爬虫或是自动程序(像 python-requests、curl 等等)。

于是我就好奇这世界上究竟有多少爬虫每天夜以继日地在干活?不妨给日志打个标,把爬虫请求筛选出来看看。

经过一番搜索,找到一些开源的爬虫数据库,这样我就可以将 user-agent 和数据库进行匹配,从而判断请求是否来自爬虫。

比如 crawler-user-agents 这个就很好,也经常更新。

用脚本统计了一下,足足有 600 多个。这还是纯人工维护的数据库,实际情况或许比这个数字还要大。

其实我愿意接受搜索引擎的爬虫,它们收录网站后能给网站带来自然流量,对双方都是有益的。而像收集 AI 训练数据的爬虫就很坏了,似乎没有给网站带来任何好处,毕竟网站每处理一次请求都是要付出成本的。

不知大家对爬虫怎么看?

评论

你需要先登录才能发表评论
Made by 捣鼓键盘的小麦 / © 2025 Front Talk 版权所有