面向大规模非结构化文本的事件抽取技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:lygcctv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取是信息抽取领域内的一项富有挑战性的任务,其目的是从自然语言文本中抽取结构化形式的事件信息。从上世纪末开始,研究者们针对事件抽取任务提出了很多方法和模型,并在当时取得了很好的效果。尽管如此,事件抽取任务的准确率仍然存在很大的提升空间。另一方面,面对事件抽取模型愈发复杂的现状和处理大规模文本的需求,工业界希望能够进一步提升事件抽取的效率。本文面向大规模英文文本事件抽取的关键技术进行了深入研究,提出了基于结构化自注意力机制和空洞门控卷积神经网络的两种事件抽取方法,并设计实现了一个并行事件抽取系统。本文的主要工作和创新点如下:首先,针对现有工作中单词特征缺乏语义信息和单词间潜在联系的问题,提出了一个基于结构化自注意力机制的事件抽取方法。该方法根据触发词和事件元素的定义,融合多种信息到单词的分布式表示中。同时通过构建结构化的自注意力机制,刻画单词之间存在的先验关系,进一步在数据集上自动学习样本中单词之间的潜在关联关系,增强单词特征中的上下文信息,提升事件元素抽取的准确率。基于ACE2005事件语料库的对比实验表明,该方法的准确率高于其他方法。其次,针对事件抽取技术在小型计算设备上的应用场景,提出了一个参数量更少的轻量级事件抽取方法。该方法基于空洞门控卷积神经网络搭建面向高维度单词特征的多分类器。同时,使用数据增强技术和标签加权方法缓解训练语料库存在的样本分布不均的问题,加强事件抽取模型对小类标签数据的学习能力。基于ACE2005语料库的实验表明,该方法的事件元素抽取准确率高于同类方法。最后,面对提升事件抽取效率的需求,本文基于上述两种方法设计并实现了一个并行事件抽取系统。针对内存溢出和进程等待的问题,本文对模型进行了合理划分,并提出了一种动态的子任务调度策略。实验证明,该并行事件抽取系统能够有效地提升事件抽取的效率。
其他文献
高空核爆炸(High Altitude Nuclear Detonation,HAND)一般是指爆炸高度在30km以上的核爆炸,其产生的X射线的能量所占总能量份额高达70%-85%,是高空核爆炸的主要毁伤因素之一。由于高空大气稀薄,X射线自由程较长,因此可对爆点周围大范围内的空气进行加热,产生能量沉积,引起大范围空气温度上升形成火球。火球产生主要位于红外线波段的强光辐射,在空间产生很大范围的光幕,
随着网络结构不断发展,数据中心网络(DCN)可以为全球用户提供服务,但是当流量突然爆发时,内部的网络拥塞是不可避免的。为了有效管理当前高速DCN中的拥塞,研究人员将注意力集中在具有快速收敛,低延迟和低缓冲区占用等优点的主动拥塞控制上。ExpressPass作为一种先进的主动方案,利用信用预留机制来实现快速传输,其中每个信用调度一个最大传输单位(MTU)数据包。但是,对于工作量非常大且流量短于MTU
对中学生实践活动进行核心素养的评价能够使得中学生的核心素养培养朝着好的方面进行。目前,尽管我国对于中学生的核心素养有着较高的要求,但是对于中学生核心素养的有关评价体系研究却是比较少见的,这就导致我国教师在实践活动中对核心素养培养进行渗透时缺少目标性,以及没有过多地去注重学生的反馈,导致这样的培训是没有多大意义的。所以本文依据我国中学生在进行实践活动时,利用对其核心素养渗透实践活动中所存在的一些问题
实景三维建模在城市建设、高精度地图、地理勘测等领域都具有十分重要的作用。因此,关于基于图像的高精度三维建模方面的研究也逐渐成为关注的热点,大量方法涌现出来。其中增量式三维重建因其较好的鲁棒性和较高的建模精度被广泛应用在学术研究与工程实现领域。其中,传统增量式重建中的初始图像对选取方法在相似图像搜索、相对位置关系计算的过程均依赖SIFT、SURF等特征点提取的效率和准确度,并且要进行两两图像间的特征
翼伞系统可用于精确空投和大型航天器的回收,应用前景广阔,是空投和回收领域研究的热点。而翼伞系统的航迹规划与控制作为无人翼伞系统自主寻的的核心,始终受到研究者的高度关注。翼伞的航迹规划与控制方面的研究,大多数假设无风环境或者设置恒定风环境,没有考虑到在执行实际任务当中风场的变化性。在此背景下,本文首先利用地形数据设置复杂风场仿真模型,并以该模型为飞行环境,对翼伞系统风场辨识、分段航迹规划以及轨迹跟踪
航天器电磁操控是一种新的在轨服务技术,通过在航天器上安装三个正交的超导线圈产生任意方向的电磁力控制航天器间的相对运动。与传统惯性推力相比,星间电磁力具有无推进剂消耗、连续、可逆、无羽流污染等优点,在对地观测、空间探测等领域有广阔的应用前景。然而,任意两个通电线圈间都会产生电磁力,这使得多航天器电磁操控动力学分析变得异常复杂,针对这一问题,论文设计了电流频率/相位调制方法达到简化目的,基于此,还研究
X射线自由电子激光、红外激光系统作为重要的战略资源,其发展建设对国防具有重要意义。随着应用领域的拓宽和用户需求的提升,对激光系统光束线传输质量、稳定性等指标提出了更高的要求。研究表明,X射线自由电子激光、红外激光系统使役性能与反射镜材料、表面精度、表面质量等有密不可分的联系。单晶硅凭借其优良的理化特性,被广泛用作反射镜基底材料。目前,单晶硅反射镜主要以超精密磨削结合磁流变抛光、离子束修形等组合工艺
随着现代科技成果的引入和大气科学自身的快速发展,天气预报已经从传统的建立在天气学原理、数理统计与预报员经验基础上的定性预报方法,发展以大气探测和大气科学理论为基础、综合运用科学技术新成就、在高性能计算机上实施的现代数值天气预报体系。数值天气预报水平的高低,已经成为衡量一个国家气象业务保障能力的重要标志。准确的数值天气预报必须以高质量初始场为基础。生成初始场数据的资料同化是数值预报的核心关键技术之一
自动问答系统要求机器在阅读由自然语言表述的问题之后给出问题的答案,可以用于衡量机器的智能程度。因此,对于自动问答系统的研究不管是在学术界还是工业界都受到了极大的关注。由于问答系统的知识源包含大量的文档,而这些文档由许多段落组成,因此段落排序技术是问答系统中重要的信息筛选工具,也是自动问答领域的关键性技术。近年来,随着深度学习方法的不断发展以及问答系统与机器阅读理解领域大规模基准数据集的发布,问答系
近年来,随着社会和经济的发展,土地等自然资源的利用价值充分体现出来。由此,一些时间久远、权属不清、界线不明的土地行政争议纠纷逐渐增多,此类案件从实体处理上论证被诉行政行为是否合法难度较大,行政诉讼程序"空转"问题突出。检察机关在办理此类行政生效裁判监督案件中,程序方面应严格按照法律规定认定诉讼主体资格及起诉期限问题;实体方面应坚持依法精准监督、运用多种方式推动实质性化解行政争议。
期刊