事件及其事件要素的抽取研究

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:hhzj1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,对于事件的研究一直以来深受学术界的高度重视,其中,从海量文本中进行事件抽取,从而获取人们感兴趣的信息和数据是大数据时代亟待解决的关键技术。事件抽取是信息抽取的重要组成部分,事件抽取就是从非结构化文本中抽取出用户感兴趣的事件,然后用结构化或半结构化的形式描述出来,供用户浏览、查询或者进一步分析利用。事件识别和事件要素的抽取是事件抽取的两大主要任务,本文主要针对这两个内容展开深入研究。  (1)事件识别其实是事件触发词的识别过程,针对当下语料库资源缺乏造成的数据稀疏问题,本文提出了基于扩展触发词表和多特征融合下的机器学习相结合的事件触发词识别方法。基于扩展触发词表的识别方法有较高的召回率但准确率却很低。基于机器学习的识别方法准确率有明显提高但召回率却低于前一种方法。鉴于此,本文把两种识别方法结合起来,根据计算得出的候选触发词的权重分布情况设定一个阈值,候选触发词的权重大于阈值时即认定为事件触发词,当小于阈值时,就用机器学习的方法进行识别判断。实验结果表明通过把两种方法进行结合使用,召回率和准确率得到兼顾,F值也比较理想。  (2)事件要素的抽取方面,基于监督学习的方法对语料库资源的依赖比较强,不少研究工作都受到了数据稀疏问题的困扰。本文提出了聚类(无监督)学习的事件要素抽取方法,该方法能有效的减少对语料库的依赖。聚类算法选用基于距离的典型的k-means算法,但是传统的k-means算法忽略了各个特征对聚类分析影响的差异。在实际应用中,各个特征对聚类的贡献是不等的,所以在聚类分析过程中,特征的权重必须考虑在内。利用特征选择算法即ReliefF算法对特征进行加权选择,然后对传统的k-means算法进行移植改进,使改进后的算法能够适用于事件要素的抽取工作。实验表明,改进后的聚类算法比传统算法的识别效果好。
其他文献
随着网络信息量“爆炸式”地增长,传统被动的网络信息提供方式越来越难以满足用户需求,出现了所谓“信息过载”和“信息迷航”问题。个性化服务是顺应用户个性化需求的产物,能够
量子进化算法是将量子理论与进化算法相结合而发展起来的一种新颖的概率搜索算法。它基于量子计算原理,采用量子比特编码方式,以量子门作为更新种群的进化操作算子。与传统进
群决策是决策分析中的一个重要研究方向,由于其在社会、经济、管理及工程等各个领域有着广泛的实际背景,所以群决策的理论、方法和应用研究在近二十年来一直得到关注。在实际
无线传感器网络由大量资源,能量、计算能力、存储能力及通信能力受限的传感器节点组成。目前,无线传感器网络广泛应用于灾难监测,战地侦查,边界保护以及安全监管等领域。分簇
本文研究如何应用编码技术提升有线和无线网络的网络容量,涉及的编码技术包括网络编码和基于译码前传的协作传输。网络编码和协作传输,是两项新型的网络传输技术,其设计的初
随着网络的发展与普及,漏洞和病毒所造成的网络安全问题也越来越多的被人们关注。通过漏洞检测技术及时发现漏洞并利用补丁程序进行修复,是实现网络安全的重要技术之一。另一
现代远程教育是随着现代信息技术发展而产生的一种新型教育方式,是构筑知识经济时代人们终身学习体系的主要手段。充分利用现代网络信息技术,发展蒙古文远程教育平台对提高蒙古
随着计算机网络技术和数字技术的迅速发展,网络教育已经进入了数字化、智能化、个性化的发展阶段,新的通讯技术为传递最新的教学信息与知识提供了更多地途径,为网络资源的建
在分布式网络环境中,跨域认证大都采用基于Kerberos、PKI、IBC等的认证方案,其中具有代表性的方案之一是基于对称密码体制的Kerberos域内及域间认证模式。Kerberos协议是一种
随着计算机应用技术的迅速发展,人们对高效优化技术和智能计算技术提出了更高更新的要求,并用于求解各种工程问题优化解的应用技术,在诸多工程领域得到普遍的应用。鉴于实际