少样本金融文本的分级分类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yluylu2k
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,舆情事件预警已成为金融风险管控的核心任务之一。为了更加精准地分析事件的影响,需要将事件的类别进行详细地划分,这就导致金融领域的舆情事件类别繁多。一方面,由于事件本身的长尾特性,某些事件发生的频度很低,样本稀少,但这些低频事件带来的损失更加难以预测。因此,及时准确地发现这些少样本事件、尽可能减少“黑天鹅”事件带来的损失,对管控金融风险至关重要。另一方面,金融事件主体关联等特征的普遍性使得高频的头部事件对于少样本的长尾事件分类也具有指导性。为了有效提高金融舆情中的长尾类别事件的分类性能,达到少样本事件及时准确预警的目的,本文设计实现了一种有效的少样本金融文本的分级分类方法。首先,考虑长尾类别数量多、样本少的特征,本文根据类别之间的相似性和易混淆性,将类别进行聚合。针对聚合后的类别标签依赖和标签噪音问题,本文提出在大规模预训练的多分类模型上引入标签混淆模型。多分类模型在预训练任务的基础上,通过学习聚合类别下文本的特征,建立文本到类别标签的映射,获得预测标签的概率分布。标签混淆模型通过计算文本和标签的相似度,捕捉标签之间的语义重叠,最终得到一个新的模拟标签分布。该分布能够反映每个标签描述当前实例的程度,代替one hot向量指导模型的优化。实验表明,分类的准确率在两个数据集分别提升2.1%和3.2%。其次,对于每一聚合类别下的分类,为了降低构建多个分类器带来的成本,以及避免少样本带来的过拟合问题,本文进一步提出了基于元学习的少样本分类方法,通过学习多样本类别的映射关系,指导少样本的分类任务。在该方法中,首先将词汇特征及其分布特征映射为注意力分数,用于构造文本表示。然后通过岭回归器压缩部分参数的特征,有效地防止过拟合,实现分类。最后结合基于同一聚合类别的特征,优化模型的训练过程,完成更具有针对性的分类任务。实验表明,本文提出的模型相对于各基线方法均有明显的性能提升。本文的实验系统是从实际应用场景构建的分级中文金融事件语料库和金融合同语料库,所建立的少样本金融文本的分级分类方法已经在实际系统中得到成功应用。
其他文献
近几年,随着无人机广泛的普及,航拍图像的目标检测被运用在越来越多的领域中,包括监控安防、灾难搜救、边境巡查等。目标检测能极大地提高无人机的环境感知能力,是实现多任务、多场景无人机智能化的核心技术。相比地面场景的图像数据集,航拍图像数据集有着独特的数据分布,导致通用目标检测算法无法直接运用在航拍场景。航拍图像中目标检测的难点包括小目标检测精度低、目标尺度差异大和类别间数量不平衡。现有方法大部分采用基
学位
龋齿是一种严重影响儿童身心健康的常见口腔病,在儿童群体中具有患病率高、分布广的特点,及时筛查出龋齿并进行早期治疗与干预能帮助儿童阻止龋齿加重和后续其它口腔疾病的发生,也能在投入较低成本的同时减轻社会公共卫生经济负担。早期龋齿的筛查对儿童龋齿预防与治疗具有着重要意义。同时,我国口腔医师资源不足、检测能力有限,为了缓解医师诊断压力,提高龋齿诊断准确率,简化儿童龋齿筛查流程,使用计算机辅助检测儿童龋齿十
学位
随着机器学习技术的发展,世界已经进入数字经济时代,然而数据中的隐私保护问题仍是目前尚未解决的难题。越来越多的隐私计算技术被用于隐私保护的机器学习场景中,其中多密钥全同态加密技术允许各参与方使用各自的密钥加密隐私数据,并支持第三方服务器在没有任何参与方密钥与明文的情况下,对不同密钥加密下的密文进行运算,成为隐私计算技术中的重要研究方向。第一个拥有实际实现的多密钥全同态加密方案MKTFHE提供了一个多
学位
随着大数据时代的到来,学者的信息获取与交流变得更加便捷与频繁。科技为学者之间的交流提供了信息基础,但是也带来了信息过载的问题。如何从海量且良莠不齐的数据中,挖掘出有效的信息进行学者表示与推荐显得尤为重要。目前,学者表示方面的研究大多基于平铺型数据来提取学者的主题表示,但忽略了学者信息间的层次化关系。对于学术合作者推荐问题,现有方法大多利用学者的内容特征或网络结构特征的相似性进行推荐,缺乏对高潜力合
学位
辐射暴露会造成多种组织和细胞不同程度的损伤。放射性心脏病(Radiation-induced heart disease,RIHD)和放射性肺损伤(Radiation induced lung injury,RILI)是胸部肿瘤患者接受放射治疗后较为常见的并发症,目前对于这两种疾病的防治尚缺乏有效的方法,多数患者预后不良,生存质量差。骨髓造血系统由于其放射敏感性,也容易发生辐射损伤。本研究基于γ射
学位
受伤后失血休克的处理原则是尽早输血治疗防止凝血因子的稀释而不能正常凝结。输血中所需的红细胞,除了捐献者新鲜的血液外,大多来自血库低温存储的库存血。无论是低温储存还是冻存,红细胞的储存损伤使得红细胞质量退化,细胞老化,在临床上输血后会有较高的致死风险。本研究围绕红细胞长时间储存质量监控和输血安全的重大需求,建立离体储存红细胞变形性的光学检测方法,为红细胞储存条件筛选和长期储存红细胞的质量监控提供技术
学位
随着现代科技的不断发展进步和人们生活水平的改善,消费者对饮食质量和健康状况的追求日益提高,对动植物食品的冻融方式和新鲜品质提出了新的要求。但是肉与肉制品中富含蛋白质营养成分,且水分活性较高,在冻结解冻过程中会造成食物品质的腐败变质,特别是因水分渗透性的损失,蛋白质变性和物理损伤等都会引起食品在质构,味道和颜色方面发生明显的变化,这不仅导致经济上的损失和环境污染,更严重的是危及人们的生命健康。本论文
学位
超短期风功率预测是风功率预测的重要研究内容之一。随着风电产业的发展,风功率预测经历了数十年的研究,在中长期预测任务中取得了较大的进展,而超短期预测任务由于其对预测的时间粒度要求较高,且国家规定的指标较严,一直是风功率预测的一大难题。同时,超短期预测的准确性又关乎着国家的电网安全,是一个重要而又充满挑战的实际问题。对于超短期风功率预测的研究,目前主流的方法仍是使用时序数据建模分析或结合单点NWP气象
学位
目标跟踪作为计算机视觉的一个基本问题,近年来得到了广泛的研究和应用,发展十分迅速。其任务是利用图像序列中的信息,在给定目标初始状态的情况下预测目标后续的运动状态。目前,基于可见光图像的目标跟踪方法已经在VOT、La SOT等数据集上取得了很好的效果。然而,可见光目标跟踪方法在光照不足的场景下无法正常工作,此时能够全天候工作的热红外目标跟踪方法可以发挥重大作用。现有的热红外目标跟踪方法主要基于孪生网
学位
研究一lncRNA GAS5、NEAT1、H19和MALAT1与系统性硬化症的相关性研究目的:探讨系统性硬化症(Systemic Sclerosis,SSc)患者外周血单个核细胞中GAS5、H19、NEAT1和MALAT1的相对表达水平与其临床症状之间的相关性。材料与方法:采用病例对照的研究方法,纳入的61例SSc患者和122例健康对照(Healthy controls,HC)。问卷调查收集SSc
学位