【摘 要】
:
面对爆炸式增长的电子文本,人们所关心的是如何对这些数据信息进行智能化处理,并从这些文本中获取到用户真正关心的问题。在该背景下,信息抽取的概念被提了出来。事件抽取是信息抽取领域的一个子方向,同时也是该领域的一个研究重点和难点。传统的基于模式匹配的事件抽取方法需要手工的方式构建模式,这种方法耗费大量资源。基于特征的方法在提取特征的过程中会过度的依赖自然语言处理工具,这一过程也会耗费许多人力资源,而且还
论文部分内容阅读
面对爆炸式增长的电子文本,人们所关心的是如何对这些数据信息进行智能化处理,并从这些文本中获取到用户真正关心的问题。在该背景下,信息抽取的概念被提了出来。事件抽取是信息抽取领域的一个子方向,同时也是该领域的一个研究重点和难点。传统的基于模式匹配的事件抽取方法需要手工的方式构建模式,这种方法耗费大量资源。基于特征的方法在提取特征的过程中会过度的依赖自然语言处理工具,这一过程也会耗费许多人力资源,而且还容易出现数据稀疏性和错误传播等一系列问题。如今,深度学习技术风靡各行各业,特别是在语音识别和图像处理领域的应用。受此影响,研究人员也开始在NLP领域引入深度学习技术。深度学习方法的引入可以降低对自然语言处理工具的依赖,该方法可以充分利用文本上下文信息从文本中自动挖掘有效特征。人们逐渐开始将深度学习技术应用到事件抽取领域。考虑到前人研究模型中存在的不足,我们提出一种新的模型来进行触发词抽取任务,该模型的主要思想是将卷积神经网络和双向门控循环单元进行融合,从而更好的判断事件触发词及事件的类型。我们首先使用谷歌开源工具包Word2Vec将文本数据转化为词向量,以便计算机可以更好的进行理解;然后使用卷积神经网络对输入的数据进行局部词级别特征的提取,再使用双向门控循环单元对输入数据进行句子级别特征提取,双向门控循环单元可以结合两个方向的词语依赖,从而更好的挖掘句子的语义信息;接下来我们把这两个部分提取的特征进行结合。这样一来,我们提取得到的特征就比较丰富,既包括词语级别的特征,同时还考虑文本上下文句子级别的特征;最后将提取得到的特征放入softmax层进行触发词的识别判断。通过在ACE2005英文语料库上和CEC中文突发事件语料库上进行实验,我们将本文提出模型的实验结果与前人提出模型的实验结果进行对比发现,不管是在触发词抽取效果上还是在收敛速度上,我们提出的模型表现出的效果都要更好。
其他文献
煤炭在我国的发展中占据着重要的战略地位,因此煤矿的安全开采对于我国的社会和经济发展都具有重要的意义。随着计算机行业的迅速发展,使用智能设备监控煤矿井下的开采以及员工生命安全都取得了巨大进步。但是由于煤矿井下不是非常理想的环境等原因,对管控等技术的发展主要遇到两个瓶颈。首先是监控设备采集的图像照明度普遍偏低并且受到较大噪声干扰,其次矿道较为狭长,在目标跟踪过程中容易出现目标丢失的现象现有的目标跟踪方
随着多媒体网络和GPS全球定位服务系统的发展和相关应用普及,海量且多维度的数据呈现爆发式的增长,包括大量带有关键词属性的空间文本对象数据。目前主要通过空间数据库查询处理技术对这些数据进行分析处理,其中最重要的核心问题就是空间关键词查询技术,它能够利用兴趣点本身的空间属性与文本属性并综合考虑他们与查询之间的相关性,快速返回给用户满足查询需求的兴趣点。现有的空间关键词查询技术主要集中在经纬度坐标之间的
物联网的飞速发展使其部署在边缘的各种终端设备数量迅速增长,通过终端设备收集与传输的数据量也在增加,而物联网终端设备在与平台进行数据传输的过程中,大多缺少适合于物联网环境的高效身份认证和加密通信机制,因为传统互联网中的很多经过人们长久检验的安全机制由于终端设备的计算能力限制等其他特性而并不适用于物联网设备。为了确保大规模部署在无人监管环境中的终端设备安全,本文对物联网环境下终端设备的安全入网方案、身
蛋白质赖氨酸乙酰化(Lysine acetylation,Kace)参与细胞的各种生理活动,与DNA修复和细胞信号传导等生物学过程密切相关,是最重要的翻译后修饰(Post-Translational Modifications,PTMs)类型之一。Kace在生物体中的动态调节,是保证各种生物功能正常进行的重要条件,而异常的Kace修饰将导致各种疾病的产生,如糖尿病、癌症和神经退行性疾病。因此,Ka
随着信息技术的飞速发展与互联网的普及,网络用户更加热衷于在互联网上发表自己的观点、态度,各类网络平台上积蓄着用户大量的评论文本信息,例如购物网站的商品评论、新闻网站的新闻评论、社交网站的社交评论等。这些评论文本信息中大都蕴含着互联网用户所发表内容的情感倾向,对互联网上这些带有情感色彩的评论文本进行整理分析,这对于各个行业都有重大效益。使用自然语言处理中的文本情感分析方法可以对这些带有情感色彩的评论
随着大数据成为国家基础性战略资源,许多企业和组织希望从海量数据中取得经济利益,并为用户提供便利。对于大多数企业和组织来说,他们没有处理海量数据的能力。因此,将数据挖掘任务外包给云计算服务机构有效地解决了这些企业和组织计算和存储容量不足、资源利用不足和资金投入等问题。但随之而来新的安全隐患,核心问题是数据所有者不希望自身敏感信息被别人知道。因此,隐私安全问题是海量数据挖掘技术应用的主要瓶颈之一。频繁
在大数据时代,海量多模态数据广泛存在,怎样通过模态数据间的互补学习来挖掘数据中隐藏的巨大价值,是现阶段大数据研究关注的主要问题。本文研究领域图像标题生成和视觉问题回答便是在寻找图像与文本这两种模态数据之间的桥梁。图像标题生成任务是让机器自动生成一个有意义的句子来准确描述该图像的内容,属于计算机视觉与自然语言处理的交叉领域。现有研究多通过卷积神经网络编码图像信息,循环神经网络解码生成文本信息,在此基
精神分裂症(Schoziphrenia,SC)是一种神经退行性疾病,患者在认知、记忆、情绪、运动感知等方面均有不同程度的障碍。SC患者的大脑信号异常,在结构和功能上发生的病变可能导致了其病理生理的失调。而目前,SC的诊断仍然主要依赖于患者的行为表现评分。由于对病因的认知不足,诊断方式相对单一等问题尚未解决,研究一种有助于诊断和治疗的生物标志有着重大意义。神经影像学的发展为研究精神疾病提供了更好的手
代码作者归属是识别给定代码作者的过程。随着越来越多的恶意软件和先进的变异技术出现,恶意软件的作者正在创造大量的恶意软件变种,寻找恶意代码作者身份的方法也随之成为热点。恶意代码中残留了显示作者风格的特征,这些信息可以帮助预测特定恶意软件的作者使用的工具和技术类型,以及恶意软件传播和发展的方式。代码作者归属技术可以用来识别和分类恶意软件的作者,选择较为明显的代码风格特征和更加高效的深度学习方法,对代码
计算机技术以及互联网技术在教育领域的持续发展受到了教育工作者及相关人员越来越多的关注,在线教育平台因其对时空界限的突破、对优质资源的整合等特征,自诞生以来就受到了各方关注。尤其是在2020年新冠疫情肆虐的背景下,在线学习更加被大众所熟知和使用。但与传统的教学形式相比,维持着庞杂信息的在线教育平台往往会因为缺少合适的维护而产生海量的信息碎片,在缺乏有效指导的情况下,学生的学习往往停留在较浅的层次,从