基于信息抽取技术的金融知识图谱的设计与实现

来源 :东南大学 | 被引量 : 2次 | 上传用户:chouyez
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济社会的不断发展,各行业对信息的需求越来越迫切,这在金融领域尤为明显,金融从业人员需要结合各种行业信息实现对公司的背景调查、风险预估等。但金融领域的大部分信息是通过公司公告、研究报告等形式发布,需要专业人员阅读大量文档,造成人力资源上的浪费。信息抽取技术(Information Extraction)是自然语言处理中非常重要的一个分支,主要解决从半结构化或非结构化的数据中抽取出各类结构化信息,使用这种技术解决金融公告类信息文本的抽取,具有极大的现实意义。事件抽取是信息抽取研究中最具挑战的任务之一,旨在利用计算机从文本中自动抽取特定类型的事件及其事件元素。例如,从金融公告中抽取职务变动类事件的信息,包括人员、组织机构、职位等。金融公告类文本数据有非常明显的特点,通常一个公告文本会通过规范简洁的语言表述一个金融事件,并在某个事件句中披露出金融公司的目前经营活动。由于金融领域对信息准确性的要求极高,而且缺乏大规模标注数据,因此对这类文本的信息抽取较为困难。本文的主要贡献有:1.对金融公告类文本的信息抽取做了研究。由于金融公告对信息准确性的要求,本文提出使用同义词表解决专有词汇识别问题,并结合BILSTM+CRF模型解决部分开放性实体识别和语义角色标注任务,最终得到金融领域事件句的事件元素。2.基于抽取得到的三元组信息等,构建金融领域知识图谱,并提出一个完整的构建系统。本文基于公告类文本抽取得到的数据,结合一些原始数据构建出金融领域知识图谱。3.基于此金融领域知识图谱,本文提出一种问答功能解决方案。基于知识图谱的问答系统是知识图谱的一个现实应用。本文根据金融领域特点,结合用户需求等给出一个领域知识图谱问答功能的解决方案。总体而言,本文提出一种基于专业词典的规则方法,并结合深度学习模型实现了金融领域的信息抽取,并构建出一个金融领域知识图谱。基于此知识图谱,本文设计并实现了一个问答模块。系统的测试环节验证了本文所提出算法的有效性,并满足了系统需求,有较强的实用性。
其他文献
由于工地周围场地窄小或其它障碍物致基坑围护桩中心的距离狭窄,钻孔灌注桩施工机械不具备作业空间,使基坑围护不能采用钻孔灌注桩施工。经研究与实践,采用微型钢管桩可以在
也许,你喜欢冬天,喜欢那千里冰封万里雪飘的震撼气势,喜欢那冰清玉洁如同童话般美丽的清纯世界。也许,你讨厌冬天,讨厌那连日怒吼的寒风,讨厌那令人伸不开手脚的酷寒。不管你喜欢还
目的:观察并比较脱氧核苷酸注射液联合化疗药物治疗人非小细胞肺癌的临床疗效和不良反应。方法:采用多中心、随机对照试验将62例人非小细胞肺癌患者随机分为试验组和对照组,试
基于某啤酒生产企业制冷所用的液氨,通过伯努利方程计算出液氨储罐发生事故的泄漏速率、泄漏时间,结合不同浓度液氨对人体的危害,建立半球扩散模型求得氨气云团扩散形成的中毒危
结合上海船舶研究设计院浦东中试基地深基坑围护工程的成功实例,着重介绍了SMW工法和钻孔灌注桩相结合在深基坑围护中的应用。通过该工程的施工,其积累的成功经验,可为今后类
为进一步合理高效利用秸秆资源,通过秸秆估算公式计算出上海市主要区县的秸秆产量、2013年上海市秸秆养分总量及能源化利用的标准煤当量。2013年上海市秸秆产量为106.23万t,
上海市中国人寿数据中心工程因结构设计修改增加了27根钢结构柱,单节钢结构柱最重达27t,并且受到已安装塔吊选型及位置限制,无法采用坑内塔吊吊装到位。为此,通过方案比选,采
在短短一年间,内地读者对港台作家从陌生到如数家珍。张大春、齐邦媛、西西、蒋勋等港台作家在内地图书出版界的“全面开花”,成为现在最值得关注的现象之一。本文特遴选推荐其
收集了我国多个矿区城市的空气检测数据,采用多元统计分析和神经网络算法对检测数据进行整理分析,建立了矿区环境预测模型。通过实践检验发现,该模型预测精度较高,可以应用在
随着全球经济一体化的深入,产业互联时代即将到来,提升民族经济软实力是中华文明复兴的必然手段之一。然而,要提升民族经济软实力就必须要解决中国传统文化如何继承与发展的