Skip to content

Latest commit

 

History

History
16 lines (11 loc) · 850 Bytes

File metadata and controls

16 lines (11 loc) · 850 Bytes

财经新闻情感分类数据集

数据说明

本数据集主要用于训练财经新闻情感分类的深度学习模型。 数据来源于雪球网上万得资讯发布的正负面新闻标题,通过爬虫采集到7046条新闻标题作为种子数据集,其中正面新闻5147条,负面新闻1899条。

由于数据量太少,所以需要对数据进行扩充,扩充的策略是通过搜索引擎搜索和筛选,得到最终的数据集。

数据集中包含17149条新闻数据,包括日期公司代码正/负面标题正文6个字段,其中正面新闻12514条,负面新闻4635条。

数据样例

文件说明

  • news_seed.xlsx: 种子数据集
  • train_data.csv: 可用于训练的数据集
  • test_data.csv: 可用于测试的数据集