新闻流实时话题挖掘框架与算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lixiaojin1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网时代,网络以其无可比拟的传播速度,成为越来越多人表达诉求、宣泄情感和评论时政的重要途径。同时,与现实生活紧密相关的热点和敏感话题往往由网络引发,进而传输和扩散,对社会公共安全造成重大影响。网络话题一旦成为广大网民的关注焦点,短时间内将产生大量的相关报道。如何高效、实时、全方位地从网络数据流中捕捉热点话题已成为网络舆情监控、社会公共安全分析的重要研究内容。本文基于新闻媒体监控的应用需求,构建了一个面向新闻流的实时话题挖掘框架,并在该框架之上集成了实时话题挖掘和话题趋势发现算法,它有效地改善了如下问题:1)基于新闻数据的特性,将话题模型从多个角度来刻画,即时间、地点、人物、事件、机构等,使话题模型更丰富;2)通过加滑动时间窗口的实时聚类,过滤掉了较早前的历史数据,消除了历史数据对实时话题的影响;3)通过并行化聚类做话题趋势发现,解决了数据规模的可扩展性;4)通过统一的话题挖掘框架,未来可以兼容更优化的算法,提升了平台的通用性、扩展性。同时,为了对了更好的展示话题建模结果,本文搭建了一个话题展示平台网站来形象化的展示结果:对于实时话题,统计并抽取了话题的最相关标签单词,通过文本相似性关联了一些相关的视频;对于话题趋势,通过统计在不同时间点的强度,直观地展示了话题的发展趋势。在中文新闻数据集上的实验表明,本文的实时话题算法在话题挖掘的精度上比较可观,另外在话题趋势发现的实验表明,通过并行化技术,有了明显的速度提升。
其他文献
随着互联网在全球的快速发展,网上的信息每天都在呈指针数级的增长,用户可以在网上获得越来越丰富的信息资源。但是,随着信息类型日渐多样化,如何快速、准确找到自己感兴趣的信息
随着互联网的发展,大规模数据分析逐渐成为现代企业成功的关键。与此同时,随着云计算的出现,其高灵活性,资源按需使用以及随用随付费的模式吸引越来越多的企业将数据分析任务
月球数字高程模型的建立是人类探测月球过程中描述月表模型的第一步。本文在分析了CCD影像匹配、地面点高程计算、DEM内插等建立数字高程模型关键技术的基础上,研究确定了基于
大学计算机基础课程是非计算机专业及计算机专业的必修基础课,课程目标是让学生掌握计算机文化基础知识和具备一些计算机操作能力,如文字、图像、数据、网页的基本处理。由于
信息时代,万物数字化,互联网呈几何级发展态势,特别是网络媒体(Web Media)发展迅猛。互联网的发展离不开数据的发展,这种发展不仅体现在数据规模急剧膨胀上,也体现在数据结构
随着基于位置服务应用的快速发展,移动对象的查询已成为移动对象数据库研究的热点。移动对象往往会产生轨迹数据,其中任意两个连续采样点间的信息具有不确定性。现有轨迹数据
免疫入侵检测是目前入侵检测领域内一种非常有效的研究技术。它能够实时的对于系统内的异常和攻击作出判断并且发出警报。它的基本思想是,将免疫原理与入侵检测相结合,从而解决
研究MBR膜通量进行膜污染预测是当今污水处理研究领域的重要课题之一。针对MBR膜污染因子较为复杂且各因子之间相互交叉,首先用主元分析法实现输入变量的降维和去相关,求出影响
云资源调度作为云计算领域的一项重要研究内容,对云计算调度系统的性能和用户服务质量具有重要影响,其调度主要分为两个层次:一是虚拟机到物理机的映射调度;二是任务到虚拟机资源
随着多域机电系统复杂性的日益增加,系统层设计已成为机电产品开发过程中不可或缺的环节之一。在系统设计过程中,初步设计方案的生成是其核心问题,即将已知的系统功能元映射到相应的组件层,以实现功能元到组件的自动化匹配映射。目前虽然已有一些对其理论、方法的相关研究,但这些研究大多停留在理论阶段,尚无切实有效的设计工具来支持实现概念设计过程的自动化实现。本文提出了一套较完整的设计思路,自动化地实现了概念设计中