事件及其事件要素的抽取研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户：hhzj1015

【摘要】

：

近年来，对于事件的研究一直以来深受学术界的高度重视，其中，从海量文本中进行事件抽取，从而获取人们感兴趣的信息和数据是大数据时代亟待解决的关键技术。事件抽取是信息抽取的重

【作者】

：

轩小星

【机构】

：

安徽理工大学

【出处】

：

安徽理工大学

【发表日期】

：

2015年期

【关键词】

：

事件要素识别过程非结构化文本

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，对于事件的研究一直以来深受学术界的高度重视，其中，从海量文本中进行事件抽取，从而获取人们感兴趣的信息和数据是大数据时代亟待解决的关键技术。事件抽取是信息抽取的重要组成部分，事件抽取就是从非结构化文本中抽取出用户感兴趣的事件，然后用结构化或半结构化的形式描述出来，供用户浏览、查询或者进一步分析利用。事件识别和事件要素的抽取是事件抽取的两大主要任务，本文主要针对这两个内容展开深入研究。　　(1)事件识别其实是事件触发词的识别过程，针对当下语料库资源缺乏造成的数据稀疏问题，本文提出了基于扩展触发词表和多特征融合下的机器学习相结合的事件触发词识别方法。基于扩展触发词表的识别方法有较高的召回率但准确率却很低。基于机器学习的识别方法准确率有明显提高但召回率却低于前一种方法。鉴于此，本文把两种识别方法结合起来，根据计算得出的候选触发词的权重分布情况设定一个阈值，候选触发词的权重大于阈值时即认定为事件触发词，当小于阈值时，就用机器学习的方法进行识别判断。实验结果表明通过把两种方法进行结合使用，召回率和准确率得到兼顾，F值也比较理想。　　(2)事件要素的抽取方面，基于监督学习的方法对语料库资源的依赖比较强，不少研究工作都受到了数据稀疏问题的困扰。本文提出了聚类（无监督）学习的事件要素抽取方法，该方法能有效的减少对语料库的依赖。聚类算法选用基于距离的典型的k-means算法，但是传统的k-means算法忽略了各个特征对聚类分析影响的差异。在实际应用中，各个特征对聚类的贡献是不等的，所以在聚类分析过程中，特征的权重必须考虑在内。利用特征选择算法即ReliefF算法对特征进行加权选择，然后对传统的k-means算法进行移植改进，使改进后的算法能够适用于事件要素的抽取工作。实验表明，改进后的聚类算法比传统算法的识别效果好。

其他文献

基于WEB日志挖掘的个性化服务相关技术研究

随着网络信息量“爆炸式”地增长，传统被动的网络信息提供方式越来越难以满足用户需求，出现了所谓“信息过载”和“信息迷航”问题。个性化服务是顺应用户个性化需求的产物，能够

学位

个性化服务Web日志挖掘用户模型目录结构推荐系统

多宇宙并行量子多目标进化算法及其应用研究

量子进化算法是将量子理论与进化算法相结合而发展起来的一种新颖的概率搜索算法。它基于量子计算原理,采用量子比特编码方式,以量子门作为更新种群的进化操作算子。与传统进

学位

量子计算量子进化算法多目标优化水资源优化配置

基于不确定偏好信息的专家群决策分析方法和应用研究

群决策是决策分析中的一个重要研究方向,由于其在社会、经济、管理及工程等各个领域有着广泛的实际背景,所以群决策的理论、方法和应用研究在近二十年来一直得到关注。在实际

学位

群决策不确定偏好信息群体一致性方案排序

无线传感器网络分簇算法研究

无线传感器网络由大量资源,能量、计算能力、存储能力及通信能力受限的传感器节点组成。目前,无线传感器网络广泛应用于灾难监测,战地侦查,边界保护以及安全监管等领域。分簇

学位

分簇优化算法权重层次无线传感器网络

基于编码的网络容量研究

本文研究如何应用编码技术提升有线和无线网络的网络容量,涉及的编码技术包括网络编码和基于译码前传的协作传输。网络编码和协作传输,是两项新型的网络传输技术,其设计的初

学位

网络容量IP层网络编码协作传输多信道无线网络

基于OVAL的漏洞检测及修复服务的研究与实现

随着网络的发展与普及,漏洞和病毒所造成的网络安全问题也越来越多的被人们关注。通过漏洞检测技术及时发现漏洞并利用补丁程序进行修复,是实现网络安全的重要技术之一。另一

学位

OVAL漏洞检测补丁分级服务器

蒙古文远程教育平台中网上书店和课件系统的研究与实现

现代远程教育是随着现代信息技术发展而产生的一种新型教育方式，是构筑知识经济时代人们终身学习体系的主要手段。充分利用现代网络信息技术，发展蒙古文远程教育平台对提高蒙古

学位

远程教育蒙文教学课件设计程序语言

同步流媒体课件制作关键技术的研究与实现

随着计算机网络技术和数字技术的迅速发展,网络教育已经进入了数字化、智能化、个性化的发展阶段,新的通讯技术为传递最新的教学信息与知识提供了更多地途径,为网络资源的建

学位

流媒体课件制作SCORM标准化视频讲稿同步矩形检测

Kerberos的安全性分析及其认证模式的研究与改进

在分布式网络环境中,跨域认证大都采用基于Kerberos、PKI、IBC等的认证方案,其中具有代表性的方案之一是基于对称密码体制的Kerberos域内及域间认证模式。Kerberos协议是一种

学位

Kerberos协议认证服务域内认证域间认证

微粒群算法在聚类分析及QoS组播路由中的应用研究

随着计算机应用技术的迅速发展,人们对高效优化技术和智能计算技术提出了更高更新的要求,并用于求解各种工程问题优化解的应用技术,在诸多工程领域得到普遍的应用。鉴于实际

学位

微粒群空间特性PSO聚类组播服务质量树形变换

事件及其事件要素的抽取研究

与本文相关的学术论文