基于多子事件混合模型的事件摘要算法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:feixiang20090911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展,使得大量的信息洪流以前所未有的方式冲击着社会的政治、经济和文化,改变着人们的生活方式。面对这浩如烟海的信息,人们越发容易陷入一种资讯焦虑的困境之中。而且,随着时代和科技的进步,互联网上的信息媒体向着更加多元和开放的方向发展。如何有效的组织、呈现互联网上的信息是自然语言处理和信息检索领域面临的一大挑战。自动文摘技术,正是面向这一需求应运而生,其核心思想就在于通过文本压缩技术,从大量文档集合中抽取最核心最重要最能反映文档集合主要内容的文字来组成摘要。本文以信息检索为出发点,以信息压缩呈现为目标,研究新闻上的多文档自动文摘技术。  事件发展情节摘要是自动文摘领域的新方向,与传统静态多文档自动文摘不同的是,其在处理事件相关的文本内容的同时,综合考虑时间信息,基于时间轴曲线生成描述事件发展情节的文本摘要。当前,互联网的实时性在新闻事件报道和传播上发挥着重要的作用,用户主要通过互联网实现对事件的回顾和关注,了解事件的发展过程。然而,搜索引擎对事件主题的反馈结果并不是很理想,例如,当用户输入“2008年北京奥运会”时,百度给出的检索结果超过三千万条,而谷歌给出的检索结果也超过了一千八百多万条,检索结果信息量之大,令人侧目。传统的多文档自动文摘技术能更好的解决这一问题。但是,它只能为用户呈现事件相关的主要信息,而无法展现事件发展的阶段信息,并且,当用户需要了解特定时间段的事件发展状态时,多文档自动文摘技术是不能满足这一需求的。因此,本文基于多文档自动文摘技术,引入时序信息,研究如何更好的为一事件主题生成相应的发展情节摘要。  本文引入事件语义信息、结构信息以及时序信息,提出子事件与主体事件的概念,并基于子事件与主体事件的关系,将子事件划分为局部子事件和全局子事件。基于上述理论,本文提出并设计了一种多子事件混合LDA模型。该模型是标准LDA的扩展,它不仅能从众多文档集合中提取出多个不同类型的子事件,并同时能将相应句子划分到各个子事件对应的句子集合中。此外,基于上述得到的不同类型的子事件,结合多文档自动文摘领域对摘要的相关性、信息量、多样性、一致性等要求,本文设计了一个pair-wise的最优化框架,用以从各个子事件句子集合中抽取最优子集,生成全局最优的事件发展情节摘要。  为了验证本文提出的算法的性能,本文选取了5个比较典型的话题,从五个主流的新闻上共抓取12000多条相关新闻,对算法在该数据集上的性能进行了充分的实验。结果表明,本文设计的算法比当前几种代表性的摘要系统生成更高质量的文摘。  
其他文献
随着数字时代的不断进步,数字视频的数量也在飞速增长。同时,随着互联网技术的不断发展,数字视频传输所需的时间也在不断缩短,这也导致盗版视频日益猖狂,因而需要有效的技术手段用
该课题来源于燕山大学"四辊轧机板形控制系统研制专题".作者和课题组一起研制出了压磁式四辊轧机板形仪,并在此基础之上,独立进行了Windows环境下板形仪计算机开环检测系统硬
随着传感器和智能设备普及,情境感知技术与应用成为了研究热点。此类应用通常包含:传感器接入与感知数据获取、基于数据分析的情境分析与推理、以及基于情境的服务调用三个层
入侵检测作为一种主动的网络安全技术,能够有效地弥补防火墙的不足,被视为防火墙后的第二道安全屏障.但是,传统的入侵检测系统(IDS)缺少对变化网络环境的动态适应能力,限制了
近年来,随着视频监控系统的普及,摄像头被安装在世界的各个角落,由此产生了大量的视频数据,如何自动分析这些视频数据,成为迫切的需要。目标跟踪为自动视频处理提供了重要的数据基
多相流在工业生产中得到广泛应用,多相流参数检测在科学研究和工业生产中发挥越来越重要的作用。多相流参数的准确测量,可揭示多相流动的机理,建立多相流动模型,并对流动过程预测
该文研究的MDA(Model Driven Architecture,模型驱动体系结构)是一种基于形式模型的系统规约和互操作性方法,它将系统功能规约与特定技术平台的功能实现规约相分离,以达到"一
作为一种流行的社交网络媒体,微博客(简称微博)使得用户能够更简单地分享、传播和获取信息。用户在使用微博服务的时候,希望能追踪自己所感兴趣事件的实时发展情况。本文主要针对
一般说来,卫星在太空中的运行周期较长,而且所处环境复杂。卫星软件与常见的实时嵌入式软件相比对于实时操作系统的需求具有不同的侧重,本课题对卫星通用实时操作系统的主要需求
随着空间数据库技术的不断发展其应用也越来越丰富,同时空间推理应用的复杂度也在不断增加.方向关系是空间推理研究的重要领域应用十分广泛,因此在空间推理的研究中有关方向