Skip to content

Pyiner/Spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Spider

编程语言:Python

功能:爬取网站资源

例如:http://www.hao123.com/

网站的资源:a标签,img标签,css文件、js文件,iframe标签

限制:

  • 只爬取xxx.hao123.com下的资源,不包括外站的资源
  • 可以设置爬取资源的上限,比如,设置1个参数max_size=1000,爬到1000个时候就终止爬虫
  • 实现了线程池
  • 以log日志记录爬取的资源链接

调用方式:

python spider.py --site http://www.hao123.com/ --max_size 1000

About

Spider write by python

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages