论文部分内容阅读
在Web2.0时代,微博已成为流行的社交网络平台。微博互动性强、用户数量大,社会上的流行热点事件能够在微博平台上迅速传播,其实时性和现场感远超传统媒体。通过微博浏览热点事件已经成为现代社会获取最新资讯的重要途径。然而,作为一个主打社交的平台,微博并没有专门对新闻事件数据进行优化。人们在微博平台上只能通过关键词检索事件相关微博。这些微博一方面内容冗余度高,另一方面由于微博字数限制很难给出事件的整体描述以及用户观点。再者,搜索引擎的结果一般通过微博发布时间或者热门程度等基本属性进行排序,并没有针对微博文本内容或者主题进行排序的机制。这些不足致使呈现在用户面前的事件信息只是一个局部,缺乏完整性。同时,对于一个事件,特别是发展过程中重点发生转移的事件,用户不仅需要了解事件的概况,还希望进一步掌握事件发展的脉络和前因后果。针对这些问题,本文提出了一种面向微博事件的自动摘要生成方法。它包含两部分内容。对于微博事件数据如何进行表示的问题,我们设计了一种微博短文本自动摘要算法。它可以克服传统的长文本自动摘要方法应用于短文本摘要效果不佳的缺点,从事件的整体入手为微博生成摘要。对于事件演化阶段的摘要生成问题,我们提出了一种基于演化特征的层次聚类算法,并结合事件摘要算法为微博生成演化摘要。本文的主要贡献如下:(1)针对微博平台事件信息表示的问题,提出了一种适用于微博短文本的自动摘要算法。我们定义了一种微博复合型摘要,包括微博事件描述摘要和微博情感摘要。对于事件描述摘要,本文在依存语法的基础上,利用图模型计算微博句子单元的重要性并进行排序,最后用最大边缘相关算法筛选出最相关的句子构成事件描述集合。对于用户情感摘要,本文提出了一种基于监督学习模型的情感句抽取方法。我们从新浪微博上抓取了6个事件微博集合,实验结果表明了本文所提方法的有效性。(2)针对某些事件演化过程复杂,一个摘要难以表示的问题,我们提出了一种基于演化特征的层次聚类算法用于识别事件演化阶段。在计算演化特征向量相似度时,考虑到传统的基于向量空间模型的余弦相似度计算忽略了词语之间的顺序关系,我们设计了一种基于Spearman相关性系数计算相似度的方法,将词语顺序这一演化特征识别的重要因素计算在内。在完成事件演化阶段识别任务之后,我们结合上文提出的事件摘要算法为事件的每个阶段生成子摘要,将所有子摘要串联起来形成事件演化摘要,体现事件的发展脉络和前后关系。实验证明,我们的方法能够准确的识别演化阶段,生成的演化摘要也具有良好的准确性和可读性。