SecSec 是一个简单的安全论坛本地保存工具,可以将安全论坛的帖子保存到本地,方便查看和搜索。
有的时候一些好文章会被删除,或者某些内网环境需要搭建知识库。最开始打算使用html2pdf的方式,但是感觉对于本地搜索的功能的强度会较弱。所以打算使用爬虫的方式,将一些安全论坛的帖子保存到本地,方便查看和搜索。
对于CTF离线环境的话,直接使用Obsidian等工具,可以直接将markdown文件夹导入,方便查看。
由于版权的问题,这里不放出爬取结果,仅放出源码。
- Freebuf
- 先知社区
- 补天论坛
- 目前只选择了这三个规模较大论坛,其他内容待补充...
使用时建议使用venv环境,避免污染全局环境。
- 安装依赖
pip install -r requirements.txt
- 首先先初始化生成chrome文件,可能需要一段时间,可以通过挂载代理来加速。
python SecSec.py -i
- 按照需求修改config.py文件
- 运行SecSec.py
python SecSec.py -x # 爬取先知论坛
python SecSec.py -f # 爬取Freebuf
python SecSec.py -b # 爬取补天论坛
注意当前版本的先知爬取是调用本地的chrome浏览器,如果不具备chrome浏览器需要自行下载。
目前来说,先知社区需要定时滑动来验证是否是真人,如果提示失败,则刷新页面即可。,目前如果遇到验证,在测试页面中的验证无法正常执行,需要复制链接新开页面中验证即可,然后返回到爬取页面刷新即可。Freebuf无需验证。
但是三个平台均有部分自建图床无法爬取的情况,可能是因为掉了或者其他各种各样的原因。
补天论坛的切割可能会出现问题,因为懒得弄了,整体来说还是能用的。
由于使用技术栈为Selenium,所以可能会出现一些问题,可以尝试多运行几次,一些报错可能是网络问题,关键报错我都用代码标红了。
2024.11.7
- 修复了xianzhi爬取失败的一些问题,并提供了解决措施。
Q: 提示某些图片爬取失败
A: 先知有大部分的图床是自建或者github的,可能会出现无法爬取的情况,可以手动下载图片,然后改名放到对应文件夹,如果github图床无法访问,可以尝试挂代理。
Q: 打开chromedriver失败
A: 删除掉根目录的chromedriver.exe,然后重新运行 -i 参数初始化即可。
- 增加更多论坛
本工具仅供学习交流使用,不得用于商业用途,如有侵权,请联系删除。
如果有问题欢迎提issue,如果觉得好用欢迎star,谢谢!
更多内容可以关注我的Blog:心流