基于深度学习的金融知识图谱构建关键技术研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:lwhssg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机运算能力的不断提高,信息的存储和利用方式变得越来越简单和多样化。其中知识图谱是一种将现实世界中复杂事物关系挖掘出来并且将其可视化的技术。近年来,大数据技术以及人工智能产业的快速发展成熟,能高效准确处理海量信息的强大机器学习、深度学习算法等被应用在了各行各业的研究中,尤其在自然语言处理界,深度学习的发展大大促进了各领域知识图谱的广泛应用研究。金融行业是一个具备庞大复杂数据信息的领域,同时也是对数据丰富度、准确度要求最高的领域之一,而知识图谱可以挖掘出海量相互独立信息之间的复杂语义关联,并将其归纳总结得到知识库,给用户提供高效完善获取信息的途径,所以金融领域知识图谱的构建可以借助其对海量复杂关系的深层挖掘帮助金融从业者更好地把握行业动态、提高工作效率。本文选取金融领域中较复杂的投资事件为研究目标,构建服务于金融行业领域的知识图谱来帮助投资团队更高效准确地挖掘和研究事件背后的复杂投融关系。构建知识图谱的主要模块包括知识采集、知识抽取、知识存储等。其中在知识抽取模块中的两个关键技术分别是:命名实体识别和关系识别。主要任务是从半结构化文本中抽取实体,然后抽取实体与实体间可能存在的关系。传统的知识抽取方法是流水线型,即按照顺序先进行实体抽取,再根据抽取出的实体进行实体间关系识别,这种方法虽然使得各阶段模型选择和处理更加灵活,但是存在误差传递、产生大量冗余信息、无法关联两个子任务等问题,所以本文采用实体关系联合抽取技术,同时将知识抽取任务转化为序列标注任务,并且由于常用的序列标注策略如BIOES方法等无法解决实体重叠的问题,提出了改进的标注策略,同时由于金融领域数据一定的特殊性,联合抽取模型还面临着需要依赖大量人工标注语料的问题。针对上述实体关系联合抽取中存在的问题,所以本文的主要工作如下:1.综合考虑金融领域投资事件文本存在的实体重叠语料特点,使用了改进的序列标注策略对投资文本语料中的实体关系一起打标签,构建金融领域投资文本的实体关系联合抽取语料库。2.知识抽取模块采用了投资实体关系联合抽取模型,将实体关系联合抽取转化为序列标注任务,模型结构上采用Bi LSTM-Attention-CRF神经网络模型,充分利用Bi LSTM网络强大的特征提取能力和CRF对于长序列标注的特殊优势,Attention机制强化模型对重点信息的学习。联合抽取模型克服了传统流水线型方法的问题,大大提升了模型效果。3.为了解决金融领域缺少标注数据的问题,提出了融入数据增强技术的投资实体关系联合抽取模型,有效扩充了金融领域投资文本语料库数据,大量的训练数据一定程度上提升了联合抽取模型的性能。同时根据自定义的优化抽取规则抽取实体关系三元组缓解了语料中的实体重叠问题。4.实验部分对提出的基于序列标注的实体关系联合抽取模型进行了超参数调优实验,保证了模型的最佳效果,并且基于相同的数据集,设计实现了多组模型对比实验,分析了本文模型在数据增强效果和缓解实体重叠方面的表现。
其他文献
在金融市场中,波动率作为衡量金融资产价格波动剧烈程度的指标,对于刻画金融市场中的风险有着重要指导作用。相比以日、月为单位的低频数据,以秒、分钟、小时为采集频率的日内高频金融数据,不再服从正态分布假设,整体上呈尖峰厚尾性质。较高的采样频率,使得高频金融数据能够对市场微观结构进行更准确的预测,因此,大量学者展开了对高频金融数据波动率的探索。在计量经济领域,学者们尝试采用参数估计方法,描述高频金融数据的
学位
智能客服系统是任务型对话中的一个重要应用。智能客服系统相比人工客服而言,解决问题能力更加高效,而且成本更低,因此受到了工业界大量企业的亲睐。比如在电商领域,阿里小蜜、京东小咚等产品都是典型的智能客服系统。在政务客服领域,同样需要智能客服助力。目前,很多政府部门都提供了智能客服系统,比如北京政府的智能咨询机器人“京京”、上海政府的智能客服“小申”等。这些政务智能客服系统可以为公众提供权威的政策咨询服
学位
海冰不仅是全球气候变暖的警示器,同时也是航海的大敌。近年来,利用遥感数据来观察海冰已成为海冰研究的主要方式。图像分割技术作为高分辨率可见光遥感海冰图像研究的基础,其分割效果的好坏将会直接影响到后续研究的结果。由于高分辨率可见光遥感海冰图像的分辨率较高,以像素为单位的分割算法通常分割成本过高,且分割效率低。另一方面,高分辨率可见光遥感海冰图像光谱信息相对不足,部分区域颜色较暗,采用传统的分割算法会将
学位
随着信息技术的发展,线上教学平台和传统课堂都产生了数以万计的数据。由于教育环境的特殊性,这些数据通常具有庞大、多维、异构的特点,不仅包括教育管理系统中的学生基本信息、课程参与、成绩统计、图书阅览等异构数据,还包括了学生使用学习平台所生成的大量点击流数据,如交互数据、学习行为数据等多模态数据信息。虽然这些教育数据中蕴含了大量学习行为信息、交互信息、学习效果评价信息,但是对于没有掌握数据挖掘和数据分析
学位
本文着重于研究层级图表征学习模型,提出了一种改进当前主流层级图表征模型的算法。该算法旨在提升图分类任务中预测分类标签准确率的性能,并通过实验来验证新算法模型的有效性和可应用能力。近年来,针对处理非结构化数据的机器学习方法这一研究受到越来越多的学者关注。不同于结构化数据(如图片、音频、视频等)的固定排列结构,非结构化数据的结构排列是没有固定顺序的,这使得传统深度学习算法无法作用于非结构化数据。因此,
学位
随着人工智能技术和机器人流程自动化技术(RPA)的发展,传统的审计工作面临较大变革。审计自动化、审计智能化与审计数字化逐渐成为未来审计领域的发展趋势。因此,融合人工智能技术与RPA技术对发现企业财务舞弊、提升审计质量与审计效率具有重要意义。传统的审计模式需要跨越多个系统或应用,这些繁琐、重复性强的操作仍需审计人员手动完成,现有研究仅将新技术应用于审计的某一方面或某一特定任务,例如合同分析、收集证据
学位
随着机器学习与深度学习的不断发展,计算机视觉已经逐渐成为各大领域持续研究并应用的领域,因此异常检测技术逐渐出现在人们日常生活中的方方面面,尤其是在工业工厂领域,异常检测技术的不断成熟不仅提高了缺陷产品的检测率,减轻了工人的劳动时间与工厂的用人成本,而且极大地降低了工厂因缺陷产品而产生的成本。但是面对异常样本十分稀缺的情况下,如何训练模型来提高检测缺陷产品的准确性就成为了异常检测领域中一个需要解决的
学位
现如今这个时代人类的精神生活高度饱和,人们可以借助各类社交点评软件来表达自己对于各类事物的意见和看法,这同时也是表达自我感情的过程,会有大量的情感倾向特征应运而生。基于评论数据的情感分类可以度量出用户的情感走向,不仅可以据此实现个性化推荐,还可以依据情感波动对现实生活中的诸多事物进行切实的改进,因此其隐藏的社会价值十分有意义。但是传统的文本情感分析任务往往并没有考虑到性格这类本质性的人格特征对于人
学位
区块链经历了从数字货币技术到可应用于各行各业的发展和演变。区块链作为新兴技术,逐渐引起了中央和地方政府的重视,在2019年的全国两会上也被频繁提及。其实,早在2016年,中国政府就开始了对于区块链技术的探索。智能合约相当于是一个“不可改变”且“公正”的“中间人”,协议条件满足就会强制执行该合约,由不得赖账。但是一直以来,智能合约缺少相应的技术作为支持,所以在被提出的时候没有很好地发展下去。而区块链
学位
现在深度学习方法已经广泛应用于医学界的各种疾病检测中,为医学工作者带来了诸多便利。从2019年武汉新冠肺炎(COVID-19)疫情爆发至今,全国乃至全球人民都不可不避免地受到疫情的影响,为此各大医疗机构都加设了疫情专区,以便更有效、安全地服务患者。另外,新冠肺炎作为肺炎疾病的一种,在临床表现上有许多相似的地方,例如都会表现出咳嗽、呼吸困难等症状;在影像方面,无论是X射线检测影像还是CT影像,两者也
学位