Eureka团队参加2024FinTechathon深圳国际金融科技大赛人工智能赛道赛题A的作品:One-shot SSVFATE个性化自监督纵向联邦信贷评估系统。非常感谢微众银行和深圳大学的各位老师,为进一步完善作品提出了宝贵的意见。本团队选择公开代码框架,期待未来会有更多优秀的技术作品在深圳国际金融科技大赛中出现。
其中,./stage1&3 包含协作预训练模块(基于Fate的自监督框架)、下游监督任务模块,./stage2 为本地预训练模块,训练顺序为:
(1)纵向联邦协作自监督预训练阶段 stage1.ipynb
(2)本地对比知识蒸馏自监督预训练阶段 stage2.ipynb
(3)下游监督任务微调 stage3.ipynb
为了提升系统的整体性能,本团队在功能和技术方面进行了若干创新。具体内容将从以下四个方面进行阐述。
在真实业务场景中,金融机构通常只能获得极少量对齐且带标签的样本,这极大限制了现有FATE框架中VFL方法的训练效果。为弥补FATE框架中VFL在真实业务场景下的研究空白,本团队开发了全新的个性化自监督纵向联邦学习框架One-shot SSVFATE,通过双阶段自监督学习,充分利用各方的所有可用样本(包括对齐和未对齐样本)对VFL模型进行个性化预训练,挖掘无标签数据中的金融价值,克服标签稀缺、对齐样本稀疏等局限性,在现实场景中实现跨机构隐私数据安全、高效合作,助力数字化转型和业务创新,充分发挥数据价值,提升数据驱动决策的智能化程度与效率,进而金融机构在保护隐私的基础上实现业务创新和价值增长。
目前,用于提升模型性能的常规正则化方法往往与自监督学习的优化目标产生冲突。为进一步提升自监督训练中VFL模型的域间泛化能力和表征学习能力,同时避免与自监督学习优化目标的冲突,本团队提出了联邦对比实例相似性学习模块,并将其应用于协作预训练阶段。该模块基于实例相似性,对One-shot SSVFATE中的协作预训练技术进行改进,在避免协作预训练阶段使用的对比自监督学习方法产生正则化冲突的前提下,通过对齐各方的实例相似性,实现VFL中的表征级知识迁移,从而使协作模型能够捕捉各参与方表征中的更深层次的域间知识。联邦对比实例相似性学习模块进一步提升了各方协作模型的域间泛化能力和表征学习效果。
在金融信贷评估任务中,金融机构所获取的数据大多为表格型特征数据。这些数据不仅结构复杂,数据值范围不统一,还存在标签缺失和对齐样本稀疏等问题。数据的多样性和不一致性严重阻碍了模型的训练和推理,影响了模型的稳定性和泛化能力。因此,本团队针对无标签数据中的密集型特征设计了弱数据增强、混合数据增强和混合噪声数据增强三种技术,并针对稀疏型特征设计了标签编码和嵌入向量转换的数据增强方法,有效解决了数据结构复杂、数据值范围不统一等问题。此外,无标签数据增强技术能够使模型专注于学习数据变换中的核心不变特征,使其在标签稀缺的情境下具备更稳健、更具泛化能力的表征学习能力,从而提升模型的稳定性和泛化能力。
在纵向联邦学习中,各参与方在完成协作训练后,仍需共同合作对新数据进行推理,以满足实际业务需求。为提升用户体验,One-shot SSVFATE在VFL模型完成训练后为各参与方提供了一体化推理服务以及结果可视化功能。通过这一服务,各机构无需共享数据即可快速生成准确的信贷评估结果,并通过直观的界面呈现给用户。同时,为确保推理服务中各机构数据的隐私安全,系统对用户数据进行隔离处理,通过FATE-Server提供的API接口调用预测服务,在保证数据隐私的同时,实现高效的实时推理。此外,系统配备了数据溯源机制,对所有数据传输和模型调用进行记录和管理,以满足金融机构的合规性要求。One-shot SSVFATE提供的纵向联邦推理服务不仅能够简化推理过程,提高各参与方的协作效率,还能保障推理阶段数据隐私,满足了金融信贷场景中对数据安全和用户体验的双重需求。