本项目的主要任务是对中国政府采购网上的招投标信息进行采集,然后在后期进行数据的清洗与融合
本次项目中主要用到了多线程爬虫的知识,通过多个线程分别请求获取页面源码,然后使用解析器进行解析,对于一些比较特殊的地方则使用正则表达式进行解析处理,然后将结果信息加入queue队列,写入文件;同时,在存入文件时,另外建立了写文件线程,缩短了文件的写入时间,避免了线程不安全。
另外,数据库使用到了mysql,由于信息原本的不完整性,因此没有将数据存入数据库,而是暂存为csv格式文件中,后期进行好数据的清洗后会存储在数据库中。
-
spider.py
项目启动模块,包含MainCrawler类与SaveInfoToCsv类,负责请求页面,解析数据,创建多线程,将数据写入文件等功能
-
mysql.py
数据库类,负责初始化数据库连接,执行数据插入操作
-
zhaobiao.sql
mysql脚本文件,负责初始化数据库,建立表结构字段
-
data.csv
存储最终的结果输出
csv文件格式