GitHub

关于spider中，编写class时`start_request()`函数向`parse()`函数传递数据

scrapy在start_requests中发出请求时，需要传入一些参数进行动态控制。由于scrapy默认并发数是16，为保证scrapy的请求的并发性，将其改为串行执行显然严重影响效率，因此不考虑采用全局变量的方法。因此需要使用callback函数进行信息的传递

豆瓣短评页

豆瓣每部电影的短评页至多只有121条短评，即url参数 limit 最大为120，根据以爬取的数据来看top250中电影短评数最少有30000条左右。由于豆瓣网本身设计，每页默认短评数为20，虽然提高limit对应值可以提高爬取速度，但是会出现网页不存在等bug，故仍采用默认每页短评数量，出于反爬机制或者网页本身bug，参数最大为start=580&limit=20

忽略不符合一定条件的item

stackoverflow-skip item and continue with exectuion But better is not use return, use yield or do nothing

parse(response):
    #make some manipulations
    if info.startswith('Foo'):
            item['foo'] = info.split(':')[1]
            return [item]
        else:
            return []

better:

parse(response):
    #make some manipulations
    if info.startswith('Foo'):
            item['foo'] = info.split(':')[1]
            yield item
        else:
            return

并发数的设置

并发数不要超过8，可有效避免验证码问题

分析方法简单构想

标准差，期望
5分、4分、3分、2分、1分之间分歧点个数,评分分布总分歧值
特征ratio
朴素贝叶斯，贝叶斯统计加权分
一部影视作品的ratio值、短评内容长度、短评各个打分的数量，作为特征进行分类
短评的平均长度是否具有特征
短评分词，然后进行分类

pandas中`groupby`返回类型

返回一个嵌套二维的元组，即

group=df.groupby("column_name")
for i in group: # i[0] 表示分组标识，i[1]标识这个分组下的所有记录组成的Dataframe
    pass

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
data_analysis		data_analysis
scrapy_data		scrapy_data
.gitignore		.gitignore
main.ipynb		main.ipynb
readme.md		readme.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

关于spider中，编写class时`start_request()`函数向`parse()`函数传递数据

豆瓣短评页

忽略不符合一定条件的item

并发数的设置

分析方法简单构想

pandas中`groupby`返回类型

About

Releases

Packages

Languages

Arcolaus/graduate_design

Folders and files

Latest commit

History

Repository files navigation

关于spider中，编写class时start_request()函数向parse()函数传递数据

豆瓣短评页

忽略不符合一定条件的item

并发数的设置

分析方法简单构想

pandas中groupby返回类型

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

关于spider中，编写class时`start_request()`函数向`parse()`函数传递数据

pandas中`groupby`返回类型

Packages