2020-qingdao-Corporate_Credit-top4

2020-识别失信企业大赛-top4 2020识别失信企业大赛（链接：http://sdac.qingdao.gov.cn/static_page/cmpList.html）主要基于竞赛圈开源方案进行处理，改进不多，感谢开源。复赛a榜top4，b榜top4，在赛题过拟合情况明显的同时，防过拟操作效果明显。方案特点：

经EDA发现部分离群点，将这部分离群点改值为None，避免学习到异常信息造成过拟合
经EDA发现训练集和测试集部分特征分布不一致，将训练集中该部分数据的权重设置为0.01，才lightgbm构建数据集时引入该权重，降低该部分数据的影响程度，避免过拟合。
发现stacking提升效果明显，利用lgb、xgb、catboost预测结果作为特征，效果明显。为提升得分可以进一步进行多模型stacking，但为了方案效率放弃堆叠模型。
针对税务特征，借助w2v进行embedding，获取映射向量作为特征，但提升不明显。

后续方向：

重要性较高的特征为税务特征，同时其中存在大量0（缺失值为nan）,该现象较为特殊，可以进一步挖掘。
模型训练过程使用logloss，使用auc可能会降低过拟合程度。（使用auc训练早停代数较低）
开源方案中使用分类特征的woe和iv作为特征，方案得分较高。提取woe和iv过程涉及标签泄露，会造成过拟合。考虑自行训练获取训练集和测试集的标签，从而保证提取过程综合考虑训练集和测试集标签信息，降低过拟。线下提升明显但线上不好，可以进一步研究。
尝试借助原始特征构建唯一公司id，分析数据集中是否存在重复数据，从而实现去重后学习。可进一步尝试构建唯一id。
特征构造较为简单，可进一步进行特征工程。赛题数据较为特殊，大部分特征（比例特征，统计特征，五折转化率、词频统计）都是无效的。
原始数据存在大量缺失和为0情况，同时数值存在脱敏。尝试基于相关数据的进行反脱敏和规则构建，但是个人能力有限和对数据的敏感程度不足，未实现任何相关规则的发掘。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
EDA.ipynb		EDA.ipynb
README.md		README.md
get_w2v.ipynb		get_w2v.ipynb
model1.ipynb		model1.ipynb
model2.ipynb		model2.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2020-qingdao-Corporate_Credit-top4

About

Releases

Packages

Languages

anzhizh/2020-qingdao-Corporate_Credit-top4

Folders and files

Latest commit

History

Repository files navigation

2020-qingdao-Corporate_Credit-top4

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages