之前紧急任务用的比较粗糙的方法实现的wb认证码识别
兑现之前立下的flag,提高准确率
希望大家不要干坏事,目前在优化搜索真的很心累,大家真的真的不要随便跑数据,爬虫记得关,切记
特别痛恨那些营销账号隔三差五发一篇爬虫。。。导致有点想做反爬
好了,目前只完成了一小部分,通用一点的,方便以后使用
服务器环境养成的vim习惯,对ide有点不是很习惯,泪
mac下就直接brew吧,省事
上个精度不高的工具,起码不用自己标注
brew install tesseract
pip install pytesseract
改为迁移学习
没有经过人工修正的tesseract识别率真的太低(之前在简书写的是人工修正后的结果,评论中提多人说识别率很低的区别就在这)
20190505:认证码认证渣浪已改
20200721: 目前主负责nlp不再负责管理爬虫事物,很大可能不再更新