关于应对网站反爬虫和验证码识别的问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2688 天前的主题，其中的信息可能已经有所发展或是发生改变。

公司需求所以开始写爬虫

第一次写直接 curl 请求 web 端折腾了一下午算是搞定了可是速度很慢而且频繁被验证码限制

第二天搞了台拨号的机器每次验证码就直接断了宽带重新拨号（动态 ip ）但是速度还是很慢

第三天刷了一下关于爬虫的乱七八糟的知识开始重写

重写是利用 curl_multi 进行并发请求这次是爬 H5 端 H5 端验证码的频率比 web 端要低很多

但是新的问题出现了放到之前拨号的机器上基本上一个页面就弹一次验证码换 IP 也一样

本地跑就不会这样而且重拨后 curl_multi 就会报链接超时的错误于是就放在本地跑

但是验证码的问题还是没有解决于是就开始摸索网站验证码的规律

几天下来还是没有太大的发现不管是降低访问频率还是更改爬取顺序基本上都没什么太大变化

于是考虑从过验证码下手验证码是纯底色没有干扰只是字体会变形旋转

又折腾了下 Tesseract-OCR 识别率太低达不到想要的效果

想问几个问题：

电商网站一般都是什么反爬虫策略? 被验证码限制最多的时候就是一个循环完成后下一个循环第一个页面被限制，最近几天在其他时候被验证码限制的情况发生频率高了一些有用 sleep()限制频率依然没什么用

爬虫 dalao 们都是怎么对抗验证码的除了代理 IP，以及对验证码识别有没有什么效率比较高的办法看 Tesseract-OCR 是有深度学习?的特性但是没搞太明白

拨号的那台机器用爬 H5 端的爬虫为什么会这么频繁被限制本地却不会这样每次重拨大概率 IP 都会换应该不是黑名单的问题吧?本地基本都是输入验证码接着重新开一下爬虫就好了

如果用 php-thread 真正独立线程编写爬虫重拨 IP 会不会出现超时的 error

Tesseract-OCR 配置 tessedit_char_whitelist 后会报错 read_params_file: Can't open tessedit_char_whitelist; 白名单只是添加了 a-z

作为新手可能会问出比较蠢的问题水平有限希望见谅 = =

有需要提供更多详细信息的我会补充爬虫工具是用的 V2dalao querylist 致谢

第 1 条附言 · 2017-07-21 15:00:52 +08:00

这是拨号的那台机器换一次IP插入几条就会立刻被验证码限制

下划线是分割上面的是当前IP 下面的是重拨后的IP

大部分情况下换了IP第一次访问就被验证码限制

cookie是禁用的 user-agent是随机的移动设备user-agent

用工作的机器跑大概能跑上万条数据才会被验证码限制

验证码

爬虫

拨号

反爬虫

36 条回复 • 2017-07-25 11:50:14 +08:00

Le4fun

2017-07-21 09:57:05 +08:00

同新手占楼学习

mansur

2017-07-21 10:12:28 +08:00

代理可购买，如果采集对象是 https 的，建议自建代理池。简单验证码可接打码平台，复杂的只能靠代理池绕过了。

2ME

2017-07-21 10:21:17 +08:00

@mansur 代理还没看过怎么搞验证码属于比较简单的了没有什么干扰不过只能靠自己解决 = = 不考虑接付费平台

hxndg

2017-07-21 10:53:02 +08:00

我只知道一种对抗爬虫的技术，正常情况下用户看不到隐藏的链接，谁爬到了就禁止谁访问。

soulmine

2017-07-21 10:55:16 +08:00

@2ME 验证码还是推荐人工各种算法都有上限值而且程序复杂度会翻几个数量级还有那准确率就看天了 www 如果是登陆时候需要验证码的话可以试试带带 cookies

soulmine

2017-07-21 10:57:35 +08:00

@hxndg 这基本没用吧我用 jq 选择器不就行了为什么我非要去爬这个链接呢 www

2ME

2017-07-21 10:59:03 +08:00

@soulmine 验证码是爬取一段时间的限制措施验证码纯色背景没有干扰噪点只是验证码形状会扭曲一些 4 位数字+字母感觉比平时的站验证码都要简单一些

2ME

2017-07-21 11:00:05 +08:00

@hxndg 我遇到这种情况的概率感觉不大

wangxiaoer

2017-07-21 11:00:23 +08:00

@hxndg 这种对定向抓取没啥用吧

soulmine

2017-07-21 11:07:23 +08:00

@wangxiaoer 而且这样还有个问题你怎么区分正常情况和爬虫情况靠 header 头么 www

nullen

2017-07-21 11:08:52 +08:00

简单一些的验证码，MINST 手写数字识别就可以过掉了。

soulmine

2017-07-21 11:10:01 +08:00

@2ME 这个好办啊你限个速不就行了肯定是有阈值的你别去摧残她网站自然不会给你验证码了 www 追求速度就跑多进程好了只不过你得搞代理 ip 了

2ME

2017-07-21 11:14:49 +08:00

@soulmine 我最近一个星期一直在找临界点比较有趣的是不管我速度放的有多慢基本上数据库 6000-12000 通常 1w 条数据就出验证码了速度最慢的时候接近单线程单请求现在是多并发请求

soulmine

2017-07-21 11:19:42 +08:00

@2ME 那估计是看个数而不是时间的上代理好了 www

KgM4gLtF0shViDH3

2017-07-21 11:27:38 +08:00

为啥不上付费平台，又不贵，验证码自己搞很累的。要是我做反爬虫就直接针对那些访问多的爬虫返回没用的假数据。

2ME

2017-07-21 11:56:19 +08:00

话说被 V 站禁言系统误伤半小时不能发言 @soulmine 如果只是看个数的话我也不会说有趣了= = 我帖子内容有讲我有另一台可以拨号上网的机器实现代理功能每次重拨都会更换 ip 一样开始单线程就是用那台机器跑可是我把新写好并发请求的爬虫放到那台机器去跑几乎每隔一两个页面就会被弹验证码百思不得其解

niuoh

2017-07-21 12:07:12 +08:00

可以上爬虫代理推荐个用着不错的 ip 池 ip-chi#net

misaka19000

2017-07-21 12:29:41 +08:00 via Android

验证码试试 KNN 算法

aaronzjw

2017-07-21 12:44:04 +08:00 via Android

验证码用 cnn 模型

MrMario

2017-07-21 12:59:55 +08:00 via iPhone

验证码用 svm 算法

golmic

2017-07-21 13:04:48 +08:00 via Android

留个微信号可以跟楼主交流一下。

2ME

2017-07-21 13:05:21 +08:00

看了看各位 dalao 推荐的算法模型啥的感觉对我来说超纲了 orz

lommo

2017-07-21 13:05:29 +08:00

关键信息都是图片的很伤的

Wetoria

2017-07-21 14:10:36 +08:00 via iPhone

我和我同学爬过某电商平台，数据是动态出来的，怎么破？🤷🏻‍♂️
我同学爬某东，前几页数据正常，爬到后面开始为第一页的重复数据。🤷🏻‍♂️
正常情况与爬虫，主要就是访问量的差别了吧？原来搞爬虫看到的一句话“爬虫与反爬的战争中，爬虫终将获胜。”你的网站只要能被正常访问，就一定能被爬。

反爬策略封 ip，加验证码，是不是还有个 ajax 异步加载数据？？我记得另外爬了一个网站，访问结果就是一条链接🌚

qsmy

2017-07-21 14:20:15 +08:00

如果验证码简单，只是轻微粘连和扭曲变形，可以尝试 Tesseract-OCR 的机器学习，学习个几百次就能明显提高识别率。

2ME

2017-07-21 14:36:53 +08:00

@qsmy 恩现在正在找机器学习的办法还没太搞懂不过 Tesseract-OCR 配置 tessedit_char_whitelist 总是用不了感觉白名单生效的话会提高很多不会匹配一堆奇奇怪怪的字符

qqpkat2

2017-07-21 14:37:37 +08:00

毫无压力，浏览器模拟一切爬虫~

rswl

2017-07-21 15:03:01 +08:00

程序员之间的较量

DCjanus

2017-07-21 17:33:23 +08:00

访问频率可能是根据访问时长来限制阈值的：正常人访问时间一般比较短，爬虫几乎必然是长时间、不间断访问。
也就是说你连续请求时间越长，针对你的访问频率阈值就会越低。
爬虫如果不限制频率，很短时间内就会触发短期阈值；即使限制了频率，长时间访问也会碰到长期阈值。
这种基本上无解，只能靠大量代理来解决。
当然，如果你能知道他们的具体函数的话那就美滋滋了，比如知道多久不请求就会重置阈值以及阈值和访问时长的联系。

另外部分网站出现过的情况，页面里一堆只有爬虫才能看到的数据，给你的数据投毒 2333 还会用 csv 画出来的价格标签，真人看起来没什么区别，爬虫爬回来就是一堆 csv，你还得跟验证码识别一样去识别价格标签。

另外有的网站随机请求间隔比固定间隔有更高的效率。

2ME

2017-07-21 17:42:35 +08:00

@DCjanus 感谢科普下周尝试识别验证码如果还是不行就再回来琢磨频率问题

2ME

2017-07-22 08:37:09 +08:00 via Android

感觉收藏的要比回复的多得多..

2ME

2017-07-24 17:35:32 +08:00

@qsmy 折腾了一天弄了下 Tesseract-OCR 识别验证码 500 次学习识别成功率一般但是还算能用已经放定时任务了想问下还有没有其他提高识别率的办法或者其他开源的图像识别~

qsmy

2017-07-25 11:24:59 +08:00 via iPad

@2ME 你不会是直接拿验证码识别的吧？需要先对验证码图片进行处理，比如彩色转黑白、加粗、去噪等。把识别难度降低再去学习。

2ME

2017-07-25 11:28:28 +08:00

@qsmy - - 确实没处理直接拿去学习了暂时先用着早上正在看图片怎么处理好一些图片没噪点只是扭曲和字体比较烦人命令行识别度比训练的 GUI 降低很多不知道为什么 GUI 基本永远都是 4 个字符的验证命令行识别出来的经常出现更多的字符..

qsmy

2017-07-25 11:37:33 +08:00 via iPad

@2ME 一定要先处理再去识别，起码也得黑白、加粗，否则随机性太大，识别难度大大增加。验证码的粘连是最不好处理的，其他还好。Tesseract 可以设定字符个数的。还有白名单也必须设置。
这样至少识别率有五成（只扭曲没粘连）。

2ME

2017-07-25 11:50:14 +08:00

@qsmy 我设置 whitelist 之后识别率也是低的可怕 - - 可能是图片没经处理的原因吧

关于应对网站反爬虫和验证码识别的问题

想问几个问题 ：

想问几个问题：