基于文档的中文事件联合抽取方法研究与应用

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zhl1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取任务指把半结构化、非结构化数据转换为结构化数据,事件抽取任务则是从文本中匹配事件描述信息,包含事件类型和对应事件元素,事件抽取可自动处理海量文本,从而提升工作效率。基于句子级别的英文事件抽取技术较为成熟,而基于中文文本的研究工作才刚起步。中文事件抽取具有一定难度,中文事件结构复杂且篇幅长,同一事件中的事件元素多数分布在文档中的多个句子中,另外英文以空格作为词语分隔符,而中文不具有该特性,因此分词错误将会影响触发词识别的效果。为此,中文文档级别事件抽取任务值得研究。1.针对中文事件抽取任务中文档维度大导致不能有效提取特征的问题,优化模型抽取范围,分割文档为段落,使用双向长短期记忆网络学习段落序列特征和文档序列特征,再使用自注意力机制学习段落的上下文特征。针对事件元素分散的问题,结合段落的上下文特征和文档序列特征以得到最终的特征表示,从不同层次增强特征表示,并采用标注方式识别事件并匹配事件元素。实验结果表明,相比其他模型,融合上下文的模型可更有效抽取文档中事件信息。2.为缓解因分词错误带来的语义丢失问题,添加位置向量并结合字向量作为字表征向量,将其作为模型输入,并在段落级特征提取阶段融入CNN提取的词汇级特征,以更多级别提取文本语义,摆脱对分词工具的依赖。为进一步提升模型的特征提取能力,设计交互特征融合层,动态调整段落级别和文档级别特征对于目标输出的影响度,权衡不同粒度语义特征的一致性和差异性,以得到更优的特征表示,之后采用序列标注方式识别事件信息。实验结果表明,相比融合上下文的模型,融合段落和文档交互特征的模型可对其进一步改进和完善。3.应用上述算法,设计并实现一个中文事件检索系统。为用户提供登录注册、事件抽取、文章库管理、系统管理等功能,并将事件抽取结果以结构化方式展现。
其他文献
以汉口长江Ⅰ级阶地某基坑为例,建立典型的二元结构渗流计算模型,对多种组合降水方案进行数值模拟,分析降水井底部高程、地下连续墙埋深深度及强透水层渗透系数对超深基坑渗流特性的影响。结果表明:在同一降水量条件下,降水井底部高程越高,坑内降深越大,降水效果越好,而坑外降深基本保持不变;地下连续墙底与相对隔水层的间距对抽水量存在明显的影响,大致呈线性正比关系。岩土层中的下部强透水地层是渗流的主要通道,设计时
期刊
目的:探讨细胞毒性坏死因子1(CNF1)、溶血素A(HlyA)和菌毛蛋白FimH 3种毒力因子在尿道致病性大肠杆菌(UPEC)中的表达与其抗生素耐药性之间的关系。方法:选取天津市第一中心医院84例尿道感染(UTI)患者尿液样本中分离的UPEC,通过PCR实验检测其毒力因子基因的表达,并通过药物敏感性实验分析其耐药性,进一步探索UPEC毒力因子的表达与其抗生素耐药性之间的关系。结果:本研究通过PCR
期刊
细菌感染已成为危害公共安全的最大威胁之一。光热疗法被认为是最有前途的抗菌策略,特别是对于多药耐药细菌的形成。通过酶模拟水合成法制备的水溶性聚(3,4-乙烯二氧噻吩):聚(苯乙烯磺酸钠)(poly (3,4-ethylenedioxythiophene):poly (p-styrenesulfonic acid), PEDOT:PSS),可以将808 nm的近红外能量转化为大量的热量,具有优异的光热
期刊
目的 基于国家电子病历7级标准完善高警示药品闭环管理模式,评价其实施成效,为医院药学信息化建设提供实践经验。方法 在高警示药品闭环管理过程中对数据整合性、一致性、及时性和完整性进行质量管理,梳理好闭环流程的数据流,建立起符合国家电子病历7级标准的高警示药品闭环管理体系。结果 完善后的高警示药品闭环管理体系满足了国家电子病历7级等级评审要求,能够有效梳理闭环流程风险质控关键点和规范医护人员的工作流程
期刊
随着科技的发展,视频的应用越来越广泛,而近两年由于疫情的原因,视频会议也变得非常流行,为远程办公提供了良好的环境。但由于视频中的数据量太大,对网络传输和存储量的要求都是极大的考验,因此必须对其进行压缩编码。网络的类型多种多样,不同类型的网络有着不同的带宽。并且即使是同一个网络,用户数量的不同也会引起网络带宽的波动。视频流必须适应这种变化,才能让用户有良好的体验。质量可伸缩视频编码(quality
学位
互联网技术的飞速发展和社交媒体的普及,为人们参与各类信息讨论提供了便利的平台。人们可以有选择地实时获取各类信息,立即了解当前热点问题。在科学技术给人们分享信息提供方便的同时,也为谣言的传播增加了机会。如今谣言的爆发不受时间和地域的限制,与传统谣言相比,网络谣言的传播速度更加快速,范围更加广泛,危害性也更高。因此如何挖掘出在线社交网络中谣言的传播规律,预测谣言话题下的用户行为,感知谣言发展态势,是建
学位
多模态医学图像融合包括组合两个或多个相同或不同模态的图像,旨在改善图像内容并保留信息。医学成像技术的快速发展使得科研人员关注到融合不同模态的医学图像来辅助专家进行诊断和治疗的重要性。这项技术不仅可以克服单一模态图像的局限性,还可以降低医学影像的存储成本。此外,融合结果有助于后续其他任务,如分割、分类和检测等。虽然当前已经有很多基于传统算法和深度学习的医学图像融合算法被提出,但是融合结果颜色失真,边
学位
为了有效评价低水平荧光纸张D65荧光亮度检测结果的精密度,给同行企业提供参考数据或参考方法,本研究基于GB/T7974-2013中等水平荧光纸张D65荧光亮度检测结果精密度要求的前提下,对多个低水平荧光纸张及印刷成品进行平衡均匀水平实验[1]并对实验的检测结果进行统计分析以求建立一种低水平荧光纸张D65荧光亮度检测结果精密度的评价方法。结果表明:受各样本测试水平差异影响D65荧光亮度数据结果的变异
期刊
为解决在城市中心区域复杂环境下施工常出现超深基坑施工监测指标超出预警范围的问题,本文以某工程项目为例,从地下连续墙施工、止水帷幕施工、超深基坑开挖施工、钢管支撑施工等方面详细介绍超深基坑施工技术。通过实例证明,新技术应用可以确保超深基坑施工监测指标始终控制在预警范围以内,具备更高的施工安全性。
期刊
互联网的迅猛发展催生了各种社交网络媒体,如脸书、推特、微博和微信等。这些社交媒体平台给人们提供大量信息的同时也增加了获取有效信息的成本。其中,推特作为最大的社交网络媒体,具有数以亿计的用户量,平台上的信息也是日益增多。因此,对海量推特信息进行压缩,以获取其摘要具有重要意义。近年来推特摘要研究得到了广泛关注,但在言论规范性和主题多样性这两方面仍存在不足。针对上述问题,本文具体研究内容如下:1.针对言
学位