ScrapyWeiboRelate

通过Scrapy爬取微博数据并通过AntV绘制出人际关系网络图网站展示:1100条 4700条 14000条如无法正常打开,可以尝试浏览器禁用缓存
En English

项目说明

爬虫功能

爬取微博用户信息
用户近期微博
用户社交关系抓取(粉丝/关注)

如何使用

修改spiders/weibo.py中的 user_id = int('用户ID') ，确定以哪一位用户为核心发散关系
修改relate_deep = 2与deepth_fans = 2，确定发散深度（deepth为2则包括我的关注/粉丝的关注/粉丝，数量指数倍增长）
请重写proxy_handle与get_cookies，确保middlewares能获得正确的cookie及IP代理
运行run.py
打开Draw/index.html,重要参数有：linkDistance: 50（控制边长）,endArrow: true（边是否有箭头）,lineWidth: 0.65（边的粗细）,可根据需要自行更改

特别注意

因为我的cookie池规模太小，故在spiders/weibo.py的73行,107行,132行,166行,258行加了time.sleep,运行速度慢非其他原因
爬取时对用户进行了筛选，过滤掉了大V和粉丝数大于10000的用户
训练语料不足导致NLP的准确率为89%,故本项目附训练语料（语料出处不详，于CDSN下载）

最后效果

1000个节点左右
5000个节点左右
10000+个节点
粉丝及关注用不同颜色的线区分

完成进度

现主要功能都已开发完成，正在优化图像可读性及其他小工具，并将友善度和社交关系相关联

感谢

感谢对我的帮助及指导

说明

因为微博反爬能力增强，项目中的模拟登陆功能已失效，关注/粉丝也只能爬到前20页，但是这部分本项目不再做更新，重点展示用户之间的关系，特此说明。

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
Draw		Draw
GetWeiboCookies		GetWeiboCookies
Pic		Pic
ScrapyWeiboRelate		ScrapyWeiboRelate
Semi-finished		Semi-finished
Train		Train
CheckCookies.py		CheckCookies.py
DownLoadImg.py		DownLoadImg.py
Format_data.py		Format_data.py
LICENSE		LICENSE
README.md		README.md
README_EN.md		README_EN.md
mult_color.py		mult_color.py
run.py		run.py
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ScrapyWeiboRelate

项目说明

爬虫功能

如何使用

特别注意

最后效果

完成进度

感谢

说明

About

Releases

Packages

Languages

License

RA1LGUN/ScrapyWeiboRelate

Folders and files

Latest commit

History

Repository files navigation

ScrapyWeiboRelate

项目说明

爬虫功能

如何使用

特别注意

最后效果

完成进度

感谢

说明

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages