jobhunter

##概述

简易的爬虫程序，主要抓取在指定天数内若干bbs上的工作和实习链接，然后发送至目标邮箱中。

注：如果含有KEY_WORDS , FILETER_WORDS 先过滤掉含FILETER_WORDS的信息，在从剩下信息中抓取含有KEY_WORDS的信息

##功能概述

conf.py 文件为配置文件
main.py 文件为主功能文件
beautifulsoup.py 文件为beautifulsoup功能文件

爬取距今天天数之内的数据(在conf.py中修改INTERVAL_DAYS)

比如"INTERVAL_DAYS = 2"表示抓取今天，昨天，前天的数据
根据关键词抓取信息(在conf.py中修改KEY_WORDS)

2.1. KEY_WORDS = (u'百度',u'全职',u'实习') 表示抓取含有"百度"，"全职","实习"任何一个关键字的信息

2.2. KEY_WORDS = None 表示抓取所有信息
根据过滤词删除信息(在conf.py中修改FILETER_WORS)

3.1 FILETER_WORDS = (u'社招'，) 表示在已有信息中删除含有"社招"关键字的信息

3.2 FILETER_WORDS = None 表示不删减任何信息
邮件发送(在conf.py中修改RECEIVE_MAIL_LIST)

3.1. RECEIVE_MAIL_LIST = ["[email protected]","[email protected]",] 表示群发邮件

3.2. RECEIVE_MAIL_LIST = ["[email protected]",] 表示发送至指定邮箱

目标网站(在conf.py中添加，更改HTTP_QUERYS)

{

 'host' : 'http://bbs.seu.edu.cn/', #网站的域名，'host'+'href'合成为一个每一条招聘信息的链接。
 
 'url'  : 'http://bbs.seu.edu.cn/nForum/board/Computer',       #设置要爬取的主页面，即从该首页进行爬取，一般为招聘主页。该页面包含了招聘信息的链接。
 
 'href' : r"^/nForum/article/Computer/\d+$",#每条招聘信息的链接
 #设置匹配字符串，匹配'url'网页中<a>标签的href内容。设置本项时可以在'url'网页中找一条招聘信息的超链接<a>，将其中的href内容放入字符串，href尾部数字部分用'\d+'代替，如果链接中有'?'，需要改成'\?'进行转义。
 #可根据<a>中的href前面链接一部分作为填写内容
 
 'source' :u'东南大学',  #信息所在来源

},

##安装

运行本程序前请先安装redis

1.1. windows下载链接,如下载redis-2.4.5-win32-win64.zip,选中相应版本，双击redis-server.exe运行

1.2. mac/linux下载链接。可下载2.8.13 stable版。编译见下载页面Installation。运行$ src/redis-server
安装python依赖包

2.1. 依赖包包含requests,redis

2.2. Mac OS X/Linux安装
```
    pip install requests

    pip install redis
```
2.3. windows用户可先安装pip，在利用pip安装或者下载依赖包相应的windows文件

##运行

直接运行main.py文件

##TIPS

运行程序之前，请确保redis已启动，依赖包已安装
邮件发送至指定邮箱中，若没收到，可能是延迟，也可能已送入垃圾箱中，可在垃圾箱中查看（绝大多数为后者）
如果运行卡主,请关闭redis,再重新启动redis,再运行程序尝试

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
BeautifulSoup.py		BeautifulSoup.py
README.md		README.md
conf.py		conf.py
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

jobhunter

About

Releases

Packages

Contributors 2

Languages

coolws/jobhunter

Folders and files

Latest commit

History

Repository files navigation

jobhunter

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages