微博事件抽取

来源 :中国科学技术大学 | 被引量 : 2次 | 上传用户:a11564877
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件抽取是信息抽取领域中一项重要的研究任务,旨在从含有事件信息的非结构化文本中抽取出用户感兴趣的事件信息。微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台,包含大量的文本信息。在这些文本信息中,含有用户感兴趣的事件信息。相比于正式的新闻文本,微博文本有着数量大、信息丰富、时效性高的优点,有利于更准确,更及时地提取更丰富的事件信息。与此同时,微博文本也有着表达随意、文本短小、信息冗余的缺点。  传统的无监督方法在进行微博文本事件抽取时需要预设超参数事件数量,并且该参数对系统性能影响较大,在处理大规模微博文本时,参数选择面临更多困难。此外,现有的微博文本事件抽取方法都没有考虑到命名实体之间的联系,在进行事件抽取时,依赖单词的形式是否相同。  本文的主要工作有:  (1)为了解决现有方法依赖超参数设置的问题,提出了以狄利克雷过程事件混合模型(DPEMM)为核心的事件抽取框架,包括DPEMM模型和基于频率的后处理方法。该方法克服了传统的无监督微博事件抽取框架抽取性能对超参数事件数量敏感的问题。将该框架在3个数据集上与基准框架进行实验对比,在F1评价指标上分别提高了6.1%,7.7%,6.0%。通过进一步的实验分析,总结了该方法在实验数据集上优于传统方法的原因。  (2)为了解决传统方法中没有考虑命名实体之间的关联的问题,提出了以基于词向量的狄利克雷过程事件混合模型(DPEMM-WE)为核心的事件抽取框架,包括DPEMM-WE模型和基于共现的后处理方法。该框架在两个数据集上的F1评价指标比以DPEMM为核心的事件抽取框架分别高1,5%和3.5%。通过对聚簇结构的分析,可以发现DPEMM-WE的聚簇聚集了更多的事件信息;基于共现的后处理方法通过将单词之间的相关联系融入到后处理方法中,可以有效的屏蔽聚簇中的噪音信息。  本文共分为5章,第1章介绍研究背景以及工作现状,第2章介绍了理论知识及相关技术,第3章介绍了以DPEMM为核心的事件抽取框架及相关实验,第4章介绍了以DPEMM-WE为核心的事件抽取框架及相关实验,第5章对本文工作进行了总结,对未来工作进行了展望。
其他文献
延迟容忍网络(DTN)是一种端到端之间缺乏持续可靠连接、低数据率、链路高延迟的网络,同时也是一种资源受限型网络。节点以“存储—携带—转发”的形式转发数据,数据在网络中
随着开放获取在科研领域的发展,科研工作者们越来越习惯通过网络来进行文献获取和学术交流。如何在科研文献数量呈现爆炸式增长的情况下,为用户提供方便快捷的论文获取方式,
在大规模的无线传感器网络中,节点基本上采用无源节点并使用电池供电。因此,节点自身能量的有限性与通信距离的局限性将直接影响到整个网络的生命周期。路由协议作为无线传感器
粗糙集理论是一种能够很好处理不确定信息的数学工具。近年来,粗糙集理论在数据挖掘领域得到了越来越多的应用。聚类与属性约简一直是数据挖掘技术中的重点与难点,如何进一步地
Petri网凭借其描述异步并发和图形表示的突出能力成为了系统建模、行为分析的一个有力的工具,其应用也日趋广泛。然而,由其节点过多而引致的“状态空间爆炸”问题则一直是阻碍Petri网发展的瓶颈,尤其是在面对复杂而庞大的系统时,系统分析将会变得非常复杂。源于此,Petri网学者的工作重点之一就是要对Petri网进行有效化简,将Petri网分解为若干相对简单的子网。电网故障诊断是电力系统自动化的重要内容
随着技术的发展和网络规模不断扩大,各种复杂、隐蔽的攻击技术不断出现,这使得现有的入侵检测系统往往显得力不从心。对于大规模的网络数据和复杂的入侵行为,一种比较可行的
近年来,癌症(恶性肿瘤)的发病率和死亡率都不断上升,并成为威胁人类健康的主要疾病。放射治疗是治疗肿瘤的主要手段之一。随着科技的发展,放疗已从二维的立体定向放疗发展到三维适
如今,伴随着数据量地快速增长,海量数据成为困扰企业发展的因素之一。如何有效处理数据,减小数据访问的并发压力,成为大数据解决方案不断发展的动力。MapReduce是分布式计算
网络上的产品评论对消费者和生产厂商都有重要意义。随着国内网络用户的增多,产品评论数量激增,但因缺乏合理的组织方式,导致信息获取困难。本文针对产品中文评论,使用自然语言处
目前无线传感器网络节点仍然使用电池供电,能量资源有限使得如何提高节点能效,延长网络寿命成为了一个重要挑战。而网络拓扑的设计和路由的选择将对节点能耗产生重大的影响。