微博事件自动摘要研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Ada111222333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web2.0时代,微博已成为流行的社交网络平台。微博互动性强、用户数量大,社会上的流行热点事件能够在微博平台上迅速传播,其实时性和现场感远超传统媒体。通过微博浏览热点事件已经成为现代社会获取最新资讯的重要途径。然而,作为一个主打社交的平台,微博并没有专门对新闻事件数据进行优化。人们在微博平台上只能通过关键词检索事件相关微博。这些微博一方面内容冗余度高,另一方面由于微博字数限制很难给出事件的整体描述以及用户观点。再者,搜索引擎的结果一般通过微博发布时间或者热门程度等基本属性进行排序,并没有针对微博文本内容或者主题进行排序的机制。这些不足致使呈现在用户面前的事件信息只是一个局部,缺乏完整性。同时,对于一个事件,特别是发展过程中重点发生转移的事件,用户不仅需要了解事件的概况,还希望进一步掌握事件发展的脉络和前因后果。针对这些问题,本文提出了一种面向微博事件的自动摘要生成方法。它包含两部分内容。对于微博事件数据如何进行表示的问题,我们设计了一种微博短文本自动摘要算法。它可以克服传统的长文本自动摘要方法应用于短文本摘要效果不佳的缺点,从事件的整体入手为微博生成摘要。对于事件演化阶段的摘要生成问题,我们提出了一种基于演化特征的层次聚类算法,并结合事件摘要算法为微博生成演化摘要。本文的主要贡献如下:(1)针对微博平台事件信息表示的问题,提出了一种适用于微博短文本的自动摘要算法。我们定义了一种微博复合型摘要,包括微博事件描述摘要和微博情感摘要。对于事件描述摘要,本文在依存语法的基础上,利用图模型计算微博句子单元的重要性并进行排序,最后用最大边缘相关算法筛选出最相关的句子构成事件描述集合。对于用户情感摘要,本文提出了一种基于监督学习模型的情感句抽取方法。我们从新浪微博上抓取了6个事件微博集合,实验结果表明了本文所提方法的有效性。(2)针对某些事件演化过程复杂,一个摘要难以表示的问题,我们提出了一种基于演化特征的层次聚类算法用于识别事件演化阶段。在计算演化特征向量相似度时,考虑到传统的基于向量空间模型的余弦相似度计算忽略了词语之间的顺序关系,我们设计了一种基于Spearman相关性系数计算相似度的方法,将词语顺序这一演化特征识别的重要因素计算在内。在完成事件演化阶段识别任务之后,我们结合上文提出的事件摘要算法为事件的每个阶段生成子摘要,将所有子摘要串联起来形成事件演化摘要,体现事件的发展脉络和前后关系。实验证明,我们的方法能够准确的识别演化阶段,生成的演化摘要也具有良好的准确性和可读性。
其他文献
线上教育模式被众多学校视为2020年初“停课不停学”的最佳选择,在这样的方式下,师生都可以在不用去学校的情况下实现居家学习与交流。为了实现更好的教学质量,教师需要结合
解放思想,就是在马克思主义指导下,打破落后观念、习惯势力和主观偏见的束缚,解除被束缚、被桎梏着的思维活动,改变因循守旧、不接受新事物的精神状态,研究新情况、解决新问题。人
在初中音乐教学中进行传统文化教育渗透,可以优化学生文化素养、引导学生正确的价值观形成、提升学生音乐素养。当前,影响初中音乐传统文化渗透质量的问题主要是重视不足、缺
赛默飞世尔科技(简称“赛默飞”)最近受邀出席在上海隆重举行的“2018第一财经·中国企业社会责任榜”颁奖盛典。历经半年的专业评选,赛默飞凭借以“小小科学家”为代表
危险与可操作性分析(HAZOP)方法广泛应用于工艺危险分析,但很少应用于针对单一特种设备,特别是移动式压力容器的安全隐患分析。基于HAZOP方法,采用类似间歇过程的分析手段,从装
特色化就是充分利用云南的植物资源,把云南特色的植物药做到全国最好;国际化就是以植物药出口带动中药、化学药,真正成为国际化的大企业。
某压缩天然气(CNG)加气站一台卧式天然气储气罐排污阀失效引起大量天然气泄漏,紧急处理后对其他同类阀门进行了排查,并对检验机构和使用单位在压力容器检验及使用提出相关建
“十一五”期间,宜良县委、县政府团结和率领全县各级干部、广大科技人员和农民群众狠抓农业不放松,取得了较好成绩,实现了农业增效、农民增收、农村稳定,保持了农业在国民经济中
从农村发起的改革开放已走过30余年,消除城乡之间的“巨大鸿沟”仍是待解难题。如何统筹城乡发展,推进城乡一体化必须从实践中寻找答案。近年来,开远市以敢为人先的气魄和远见,强