基于特征融合的互联网金融领域命名实体识别算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:longriver0001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会数字化的推进,传统金融行业与互联网技术的融合不断加深,新兴互联网金融为金融行业发展注入新的活力。命名实体识别技术可以从海量的金融信息中挖掘出有效的信息,在促进智慧金融发展、提升金融服务质量、满足多元化投融资需求等方面发挥积极作用。然而,现阶段的命名实体识别模型针对中文互联网金融领域的研究较为匮乏,不能有效识别出金融实体,进而影响金融行业获取信息的效率。本文结合中文互联网金融领域文本语言结构特点以及实体在文本中离散分布的特点,构建并改进了基于深度学习的互联网金融命名实体识别模型,基于该命名实体识别模型,设计并实现了一个面向互联网金融领域的可视化及文本标注系统。本文具体工作如下:(1)针对传统实体识别模型无法充分使用词内信息和挖掘局部语义特征的问题,本文结合金融文本的强领域性以及中文语法语义的特殊性,提出基于融合多层多级别特征ALBERT的中文互联网金融命名实体识别模型。通过对原生ALBERT内部网络进行改造,将其低层次网络捕获的字词级别特征融合到高层次网络中,以弥补高层次网络丢失的字词特征。使用改造后的ALBERT模型分别按照字、词级别对文本进行嵌入表示,并使用拼接的方式融合字词两种级别的特征向量,进而得到融合多层多级别特征的特征向量。为进一步学习文本上下文语义特征,本文选择双向长短期记忆网络(Bi LSTM)作为语义编码层模型。最后使用条件随机场(CRF)对中文互联网金融文本进行标注。实验结果表明,在中文互联网金融数据集上,本文模型的精确率、召回率和F1分数分别达到了92.82%、91.09%和91.95%。(2)针对中文互联网金融文本中实体离散分布的特点,以及(1)中Bi LSTM的长序列问题和无法突出关键实体的问题,本文引入注意力机制并对其进行改进,提出融合多粒度特征的多头自注意力机制,并应用到命名实体识别模型中。将Bi LSTM输出的语义特征向量划分为不同大小的子窗口,采用分段最大池化策略融合子窗口内的特征,得到具有顺序信息的多粒度特征向量。多头注意力机制以多粒度特征向量为输入,能够细粒度地关注离当前令牌(token)较近区域内的特征信息,粗粒度地关注离当前token较远区域内的特征信息。基于改进的注意力机制,模型不仅能够捕获全局上下文信息,同时还能够更多地关注金融文本中的关键实体。实验结果表明,在中文互联网金融数据集上,添加了融合多粒度特征的多头自注意力机制的命名实体识别相比于未添加的模型,其各项指标均有上升,其中F1分数的提升达到了2.54%。(3)基于上述研究成果,设计并实现了面向互联网金融领域的可视化及文本标注系统。该系统共分为五个模块,分别为数据输入模块、命名实体识别模块、互联网金融实体可视化模块、互联网金融文本标注模块以及数据存储模块。数据输入模块用于获取互联网金融文本以及用户上传的待标注文本,并将数据转发给命名实体识别模块。命名实体识别模块是系统上层应用的核心基础,主要用于从金融文本中识别金融实体,并将识别结果根据功能的不同返回给可视化模块或文本标注模块。可视化模块采用图表的方式表示金融实体以及实体的统计信息。文本标注模块通过调用命名实体识别模块为用户提供数据标注服务并提供下载功能。数据存储模块用于存储系统运行时产生的数据。功能测试结果表明,该系统具有可靠性与友好性。
其他文献
近年来安防领域对智能监控的需求愈发旺盛,具备在线多人动作识别功能的系统可以及时地发现危险行为从而做到防患于未然,因此逐渐受到业界的关注。在娱乐行业,基于视觉的动作识别算法也可以大大降低体感游戏的设备成本。同时,动作识别也为人机交互带来了全新的模式。视频动作识别算法目前可分为基于人工提取特征的传统方法和深度学习两大分支。早期基于传统视觉的方法存在人工设计的特征对动作信息表达不足,准确率低的问题,而基
学位
随着我国的工业发展逐渐走向智能化,人们在使用工业设备的过程中越来越追求设备的安全性和可靠性。滚动轴承作为旋转设备的重要组成部分,研究滚动轴承的寿命预测方法对于充分利用设备性能、降低事故概率具有重要意义。然而,传统的基于数据驱动的轴承剩余寿命(Remaining Useful Life,RUL)预测方法大多忽略了实际工业场景中环境固有的噪声对监测数据的影响。本文从提高滚动轴承RUL预测精度的角度出发
学位
六经辨证由张仲景所创立,《伤寒杂病论》中涵盖了其具体内容,是深入探讨经方理论及应用的研究方向之一。心系疾病包括“胸痹”“心悸”“不寐”“心烦”等,诸多学者多以脏腑辨证、经络辨证、三焦辨证等方法对其施治,很少以六经辨证为纲进行深入发掘和总结。作者从六经辨证角度出发,对治疗心系疾病的相关文献加以整理归纳,总结其研究发展方向。
期刊
随着科研人员对疾病的研究越来越充分,产生了大量不同类型的实验数据和科学文献,蕴含着疾病和疾病之间的潜在关联。研究疾病之间关联的强弱,有助于推断疾病的分子机制,以及促进疾病药物重定位的研究,同时也可以作为补充信息用于非编码RNA的功能预测,药物靶标预测等其他研究。已有许多研究使用不同算法来计算疾病相关性,通过使用疾病相关的不同类型数据,从不同的角度衡量疾病之间关联的强弱。大体上可以分为使用疾病的语义
学位
冠心病是一种病因病机复杂的多因素疾病,病变过程具有阶段性和进展性的特点,传统中医辨证论治方法难以整体把握冠心病的发病机制、病性和病位等,不利于中医药精准治疗优势的发挥。六经辨证能综合反映冠心病的病因病机和病势进退,对临床辨证施治具有重要的指导意义。因此,本文基于六经辨证体系,结合现代临床与实验研究系统剖析冠心病的辨治策略,旨在拓宽中医药治疗心血管疾病的思路,促进冠心病临床辨证体系趋向系统规范化。
期刊
随着航空航天与遥感技术的迅速发展,高分辨率遥感图像的应用领域也越来越多,无论是在军事领域还是商业领域都发挥着重要的作用。遥感高分辨率图像的检测识别与分割技术在土地勘探、军事训练、地震预测、地图绘制与资源调查有极大的需求。遥感图像语义分割作为遥感图像处理的重要研究内容,在遥感图像的实际应用中起到了重要的推动作用。传统的遥感图像语义分割方法依赖遥感图像数据集的底层特征和纹理特征,容易忽略掉高层特征,造
学位
移动众感是一种结合众包思想和移动智能设备感知能力的数据获取方式。与传统的传感器网络不同的是,移动众感具有部署灵活经济、感知数据多源异构、覆盖范围广泛均匀和高扩展多功能等优点,因此受到广泛关注。然而,移动众感机制中存在隐私数据泄露的问题,这导致感知服务请求者和工人参与移动众感系统的意愿均不足。现有研究多探讨鼓励参与者参与移动众感系统的激励机制或工人的位置隐私,忽略了感知任务的位置隐私也可能会暴露感知
学位
目的 探讨膝关节周围骨折内固定术后早期中西医结合康复治疗的效果,为临床提供参考。方法 选取2021年1月至12月佛山市中医院收治的106例膝关节周围骨折内固定术后患者为研究对象,按照随机数字表法分为对照组和观察组,每组53例。对照组患者采用术后常规治疗,观察组患者采用术后早期中西医结合康复治疗,治疗3个月后,比较两组患者的康复效果、并发症发生率、膝关节恢复指标、中医证候积分及生活质量。结果 观察组
期刊
在日常生活中,人们通常会接触到各类有关民生服务的信息,如:政策法规信息、衣食住行信息、社会保障信息和防灾救灾信息等等。然而,由于民生服务信息具有多样性、复杂性、数据量大的特点,使得人们不可避免的受到信息过载的影响,从而无法快速地获取到自己所需要的民生服务信息。因此,在某公司的支持下,本文设计并实现了一个民生服务信息推送系统,从而帮助人们从种类繁多、数量庞大的民生服务信息中筛选出对自己有价值的服务信
学位
随着我国水利信息技术的发展,水利领域中出现了越来越多的优秀系统,这些系统在近些年来积累了海量的水利领域相关数据,这些数据大多都储存在各自的系统之中,没有被充分的利用起来。知识图谱技术具有强大的语义处理和互联组织能力,可以有效的将这些积累的数据组织起来,充分挖掘数据价值,实现水利信息资源的高效利用。知识图谱可以认为是由本体与数据组成,对本体进行数据的填充即构成了知识图谱。本体的构建可以认为是知识图谱
学位