Skip to content

chu8129/wb_search_identify

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 

Repository files navigation

之前紧急任务用的比较粗糙的方法实现的wb认证码识别
兑现之前立下的flag,提高准确率

希望大家不要干坏事,目前在优化搜索真的很心累,大家真的真的不要随便跑数据,爬虫记得关,切记

特别痛恨那些营销账号隔三差五发一篇爬虫。。。导致有点想做反爬

好了,目前只完成了一小部分,通用一点的,方便以后使用

服务器环境养成的vim习惯,对ide有点不是很习惯,泪
mac下就直接brew吧,省事
上个精度不高的工具,起码不用自己标注
brew install tesseract
pip install pytesseract 
改为迁移学习
没有经过人工修正的tesseract识别率真的太低(之前在简书写的是人工修正后的结果,评论中提多人说识别率很低的区别就在这)
20190505:认证码认证渣浪已改
20200721: 目前主负责nlp不再负责管理爬虫事物,很大可能不再更新

About

完成n年前的承诺:微博验证码

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages