基于SVM的突发事件新闻话题跟踪方法研究

被引量 : 11次 | 上传用户:nicico
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的发展使得人们进入了一个信息极度丰富的时代。网络信息规模的急剧膨胀和凌乱无章,又使得人们对有价值信息的发现和管理变得越来越困难。突发事件的随机性和不确定性,使得决策者掌握的信息有可能不全面和不及时,并且在信息的反馈和处理过程中,信息的准确性和有效性也难以保证,导致信息失真。如何能全面准确地获取相关报道和突发事件的发展演变信息成为目前需要解决的问题。话题检测技术能从新闻报道流中自动检测出最新的新闻主题,并将新闻报道及时地按照话题组织起来;话题跟踪技术则能追踪特定的新闻主题。因此,话题检测和跟踪技术的应用将能有效地管理和组织新闻信息,满足人们对新闻信息的特殊需求。本文对突发事件的后续报道进行跟踪,根据用户事先确定的感兴趣的话题,对大规模的海量信息进行实时过滤,生成相关话题的持续进展情况,进而掌握事件的全貌。本文采用构建多个子向量的多向量空间模型的方法来表示突发事件新闻文档。在对常见的文本分类算法分析的基础上,采用了基于SVM分类算法的方法实现了话题跟踪系统。针对话题跟踪过程中话题本身的漂移现象,提出了改进的话题跟踪系统,对跟踪过程中伪相关反馈包含的新颖信息进行检测和建模,并在此基础上使用多向量空间模型动态调整话题空间,以跟踪话题漂移,降低漏检率。本文的主要工作有:1.对已经下载加工好的突发事件新闻语料进行分析,采用词语作为候选特征并将特征词划分为五类(人名、时间名、地点名、组织机构名、内容)并形成五个子向量,用五个子向量空间模型来表示新闻文档。计算时间相似度和地点相似度计算的时候分别采用了报道时间距离和关联度的计算方法,同时在特征词的权重计算时考虑了特征词的位置信息。最后把突发事件文本的信息分为两类,即客观信息和主观信息,为进一步研究奠定理论基础。2.在报道关联检测中,采用了多向量模型构建和基于SVM的分类算法相结合的方法进行检测,取得了较好的效果。3.针对话题跟踪过程中话题本身的漂移现象,采用改进的基于核心和新颖部分的方法构建了话题跟踪系统。4.设计了一个可以实现报道关联检测和话题跟踪的实验系统,能够较好的识别既定话题的后续报道。最后,我们从收集加工好的突发事件新闻语料中选择了10个话题共260篇报道进行了对比测试,来验证我们提出的方法的可行性和有效性。实验结果表明本文所提出的方法在一定程度上提高了突发事件话题跟踪系统的效率。
其他文献
随着全社会交通需求的迅猛增长,驾驶人、机动车保有量与日俱增,由此引发的通违法行为和交通事故逐年上升。传统的交通民警现场纠正违法行为的执法方式己经越来越不能满足现代
风险投资,又称创业投资。作为一种特殊的投融资体制,风险投资已成为高科技发展的助推器。风险投资在西方发达国家已有五六十年的历史,但在中国还处于起步阶段,在风险投资发展
教学生活化,是新课程的一个基本的理念。思想品德课作为一门道德教育课程,如果脱离社会和学生的生活实际,就会成为空洞的理论说教课。新课程改革时代的到来,使传统的思想品德
本文提出了一种基于嵌入式技术的通用通信管理装置设计方案。整套方案中通过对嵌入式Linux操作系统以及嵌入式控制PC操作平台的合理应用,面向外部提供以太网接口(1个)、标准串
贴膜玻璃是既有玻璃改造中重要的形式之一,它以其经济可靠、施工快速简便等优点在我国得到了迅速推广和广泛应用。但由于目前人们对玻璃贴膜的认识不足,其设计仍停留于尝试阶
农村城镇化在我国特殊国情与背景下具有重要研究意义,它不但是解决“三农”问题的根本途径,也是加快落后地区经济发展的重要途径和手段。改革开放以来,温州城镇化步伐不断加
山地丘陵资源对于我们现代社会的重要性,一直没有引起人们足够的重视。随着人口增长,土地资源的稀缺,开发山地、合理利用山地,将是我们面对的必然选择。文章通过对浙江省不同
本文选取了新西兰主流教学机构使用的四套针对欧美学生编写的汉语教材,并对这四套教材的结构、生词、课文和注释等四个方面进行了考察和研究,同时采用了问卷调查和访谈的方式
海洋覆盖全球面积的70%,蕴含丰富的海洋微生物资源。海洋来源放线菌是一类有重要价值的微生物资源,其丰富的次级代谢产物是寻找新型抗生素的重要来源。海洋鱼类作为海洋生态