面向上市公司三类信息披露公告的信息抽取系统

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:longaizj21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网金融时代的到来,各家上市公司每天通过信息披露网站发布海量的公告,公告中蕴含的信息对投资分析、企业利益、市场影响和社会经济资源分配都起着至关重要的作用。信息披露公告本身是一类非结构化文本,其信息分布零散且冗余信息干扰较大。传统的信息抽取系统有诸多局限性,难以快速、高效、准确地抽取到公告的关键信息。本文面向上市公司三类信息披露公告,设计了一种结合文档结构与深度学习模型的信息抽取系统。具体如下:1.自定义一种文档结构树算法,利用算法准确还原公告文本的层级结构。在树型结构的基础上,按照目标信息范围从大到小设计了多类信息抽取方法,主要包括自定义节点内容抽取方法,能够精确定位到关键的信息节点(章节)位置并抽取内容;基于句子触发词集拓展的信息句抽取方法,能够从节点内容中准确抽取到包含结构化信息的信息句;表格信息抽取方法,能够准确的定位所需表格并提取其结构化字段信息。实验结果表明,信息句及表格的抽取F1值可达93%以上,表格结构化字段抽取F1值达到97%以上。2.将信息句结构化信息抽取看作序列标注问题,构建深度学习模型进行自动识别。首先构建金融领域知识词典,在分词时加入词典确保信息句分词的准确性;然后使用Word2vec在大规模语料库上预训练专业领域词向量,将输入序列的单词映射为低维的实数向量;最后构建基于双向长短期记忆网络的深度学习模型,并引入条件随机场加强标签之间的关联约束,融合上下文语境信息进行结构化信息的自动识别。此外,在模型训练时使用半自动的语料标注与修正的方法构建训练语料。最终实验结果表明,字段抽取的平均F1值可达92%左右。3.整合各类方法和算法模型,根据实际应用需求设计并实现上市公司三类公告信息抽取系统,系统主要包括四大模块:公告获取模块、文档结构树生成模块、信息抽取模块和显示及储存模块。最后对整个系统功能进行测试,测试表明该系统信息抽取性能优越。
其他文献
目的:分析大面积的脑梗塞所具有的临床特点及其治疗的措施。方法:对2012年3月至2014年5月本院共收治的78名大面积的脑梗塞患者临床资料加以详细的分析,探讨其临床特点和治疗
个体防护装备是保护人体不受外来有害因素伤害,保证人体安全与健康的重要装备。在工农业生产中,各国政府针对生产过程中可能出现的各种危害采取一系列工程技术措施保护劳动者
近年来,信息网络科技技术的发展十分迅速,无线通讯网络在人们的生活和工作中具有着重要的作用,随着不断的发展,人们对信息网络技术发展的要求也是越来越高,这也就要求继续进
有了人工智能陪伴以后,我们可以及时了解到所需要的各种信息。当然,人工智能陪伴也会对未来学校发展带来许多新的机遇和挑战,关键是我们如何应对。$$教育要引进人工智能,这已经是
报纸
<正> 豫杂四季鹅是河南民权县科技局特色农业开发中心选育而成的肉蛋毛兼用鹅新品种。其主要特性如下。 一、耐粗饲,产蛋多,生长快。豫杂四季鹅由扬州四季鹅和豫东四季鹅经多
为预防间歇式反应器热失控风险,以恒温间歇式丙酸异丙酯合成反应为原型,利用反应量热仪(RC1e)获得不同冷却温度下反应放热特性及热动力学参数,并对计算流体力学(CFD)软件Flue
水墨元素是我国传统文化艺术的重要内容,是我国现代包装设计的灵感源泉。本文首先探讨了茶叶与水墨画的历史渊源,分析了现代茶叶包装设计对水墨元素的应用形式,而后对水墨元
采用溶液聚合及相反转工艺合成了水稀释性丙烯酸树脂,利用氮丙啶和3-缩水甘油醚氧基丙基甲基二乙氧基硅烷(KH-578)分别对其进行了室温交联改性。探讨了溶液聚合的主要影响因素
本文以中国改革开放和经济发展为背景,对改革开放以来江苏省对外经贸体制与政策变革进行了回顾与评述,对江苏省对外经贸发展的历程、现状与特征进行了论述,并对世纪之交江苏省对
职业举报人通过行使举报权而“要挟”商家,为达成谋利目的而故意设置送达障碍。职业举报人的这种行为无其他可增益于社会的原因,结果却导致行政资源浪费、执法效率消减,属于