招投标信息采集

项目任务

本项目的主要任务是对中国政府采购网上的招投标信息进行采集，然后在后期进行数据的清洗与融合

本次项目中主要用到了多线程爬虫的知识，通过多个线程分别请求获取页面源码，然后使用解析器进行解析，对于一些比较特殊的地方则使用正则表达式进行解析处理，然后将结果信息加入queue队列,写入文件；同时，在存入文件时，另外建立了写文件线程，缩短了文件的写入时间，避免了线程不安全。

另外，数据库使用到了mysql，由于信息原本的不完整性，因此没有将数据存入数据库，而是暂存为csv格式文件中,后期进行好数据的清洗后会存储在数据库中。

csv文件格式

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.idea		.idea
Lib/site-packages		Lib/site-packages
Scripts		Scripts
__pycache__		__pycache__
README.md		README.md
data.csv		data.csv
mysql.py		mysql.py
pip-selfcheck.json		pip-selfcheck.json
pyvenv.cfg		pyvenv.cfg
spider.py		spider.py
zhaobiao.sql		zhaobiao.sql