通过js逆向采集网易云评论数据
- 本项目仅供学习交流使用,请勿用于非法用途,否则后果自负。
- 下载本项目代表用户理解并同意,任何违反法律法规、侵犯他人合法权益的行为,均与本项目及其开发者无关,后果由用户自行承担。
- 请在下载本项目后2小时内删除,一切非法用途与本人无关。
- 本项目严禁二次开发,否则自行承担后果
- (1)本项目可采集网易云音乐热榜下的28w条评论数据,主要采用的技术有js逆向和scrapy框架。
- (2)通过抓包分析可知,发送请求评论的请求需要携带俩个加密参数-params和-encSecKey。
- (3)通过分析得出params加密前的内容如下,其中pageNo为页数,cursor为时间戳(每一页通过上一个请求的最后一个评论的发送时间开始,每页采集20条。)
params = { "rid": "A_PL_0_3778678", "threadId": "A_PL_0_3778678", "pageNo": "pagenum", "pageSize": "20", "cursor": "timestamp", "offset": "0", "orderType": "1", "csrf_token": "" }
- (4) encSecKey为随机字符串,但加密过程中与params的加密过程的加密密钥要统一,否则不返回数据,固二者均需逆向。
- (5)逆向后的代码位置:param.js