新闻报道的交互式时间线系统研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wareware1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现如今这个网络信息爆炸的时代,新闻报道的发布变得越来越方便,同时其更新速度也越来越快。当有重大事件发生时,各大网站上将出现大量相关的新闻报道。对于用户来说,如何找到对自己有用的信息,并快速了解整个事件的发展变化过程已经成为了一个亟待解决的问题。基于时间动态发展的事件通常随时间的推移而变化,即包括事件的若干不同发展动态。如果存在一个系统能够自动整理出整个事件的各个发展动态脉络,将有助于用户快速掌握事件的发展过程。本文探讨了从众多描述事件的新闻报道中挖掘出事件的发展动态这一过程,并对描述事件的发展动态的新闻报道进行了摘要提取研究。本文的主要工作包括以下三点。第一,提出两阶段的事件发展动态发现算法。首先运用层次聚类的方法,根据新闻报道的发布时间对新闻报道进行聚类。在层次聚类过程中,阈值大小的设定是一个较为棘手的问题。为了解决阈值设定的问题,在层次聚类过程中设置较小的阈值,从而得到事件的疑似发展动态。但是得到的疑似发展动态存在划分过细的问题。为了解决疑似发展动态划分过细的问题,使用模块度函数作为目标函数,根据文本相似度对于疑似发展动态进行聚类,使得同一个类中文档之间相似度大于类与类之间的相似度。在经过对疑似发展动态进行聚类之后得到的类即为事件发展动态,从而解决阈值选择这个难题。第二,提出基于词-句-标题联合增强的摘要算法(Lex-PageRank算法),对事件的发展动态中的所有文档进行整体摘要提取。该算法不仅考虑了文档中句子和句子中词语的相互影响作用,还考虑了标题对于句子、词语的影响。Lex-PageRank算法让词语、句子相互之间进行投票打分,从而得到句子、词语在文档中重要性和概括性权重。最后再根据句子得分和句子之间是否冗余从文档中抽取重要的句子组成摘要。第三,应用第一、第二中描述的两个算法,改进实现了 TimeLineCurator系统中的时间线生成模块,改进后时间线生成模块的功能为当用户提交描述事件的新闻报道时,模块对事件的每个发展动态进行发现,并对每个发展动态提取摘要,最后将事件的发展经过以视觉时间线的方式展示出来。
其他文献
河南平顶山天安煤业股份有限公司五矿,是中国平煤神马集团平顶山天安煤业股份有限公司下属的主力矿井,1956年12月动工兴建,1959年1月建成投产。矿井位于平顶山矿区中部,现有井田
应收账款是企业流动资产中的重要组成部分。合理的应收账款对于企业扩大经营规模,拓宽销售渠道,减少存货.增加收入等具有十分重要的意义。然而,应收账款的形成也给企业带来一定程
研究者所抱持的思维方式从深层次影响着理论研究的认识框架及思维路线。回顾三十年来我国成人教育研究,不难发现其中存在诸多思维方式的困境。实现成人教育研究思维方式的转换
廉洁文化是推进企业党风建设和反腐倡廉工作的创新实践,是从源头上防治腐败的重要举措。近年来,肥城矿业集团公司在构建惩治和预防腐败体系、深化反腐倡廉工作的进程中,把开展廉
广告从业者通常将受众回忆视为植入式广告效果的重要指标,但过度追求品牌记忆,喧宾夺主地与媒介内容争夺观众的注意力,不仅撕裂了植入式广告“隐性”外衣,而且干扰了受众娱乐
本文介绍了河北省新型农村合作医疗试点中的一些具体做法,通过实施新型农村合作医疗制度,农民的就医环境得到了明显改善,患病后的经济负担明显减轻,“因病致贫、因病返贫”的状况
嵌入式系统作为一门基础理论与工程实践相结合的课程,在计算机及电子信息类课程体系中占有非常重要的地位。文章对嵌入式系统课程项目式教学模式进行探讨,并对项目式教学模式
癌症的发病率在不断提高,发病群体越来越年轻化。在青年人中癌症造成的死亡率占有较大比重。近年来,我国数字医疗设备数量的平均增速在20%。但是由于创新能力不足,政府相应的
本文通过对高校与地方经济发展互动关系的论述,分析驻保高校与地方经济发展的现状及问题,提出地方和高校开展良性互动的建议及促进高校服务地方经济建设的对策,以期为驻保高