基于云平台的网络新闻热点话题检测与发现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:yahu911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息网络时代的到来,使得互联网新闻信息急剧增长,面对着交错纷杂的新闻信息报道,人们在从中获取社会热点话题,掌握社会信息动态,了解网络信息舆论变得越来越困难,网络热点新闻话题检测与发现技术的发展很好的解决了这一问题,它是为了从广泛的网络新闻事件报道信息中寻找出备受社会关注讨论的热点话题,方便用户了解社会焦点信息。本文的研究重点是利用获取的新闻事件信息,去检测发现网络新闻中的热点话题,主要成果包括以下内容:1.网络新闻数据的获取。数据源的获取是第一步,本文首先以数据的获取,以及新闻事件信息的提取为切入点,为之后的研究做铺垫。2.新闻数据信息获取之后,如何对新闻文档进行建模是本文研究的关键所在,.本文讨论采用向量空间模型(VSM)和主题模型(LDA)对新闻文档信息建模。3.本文对建模完的新闻文档按照所属领域进行分类,使新闻文档尽可能的按照报道事件所属的不同领域区分开来。接着,利用热点话题检测的方法对新闻文档信息检测,发现各领域中的热点话题。4.针对当前网络信息中的海量新闻数据资源的处理,传统处理方法显得越来越力不从心,本文中采用Hadoop开源云平台处理获取的新闻文档数据信息,利用MapReduce并行计算的方式实现文中话题检测的方法。5.为了对本文实现的新闻网页分类以及话题检测的方法结果进行分析,分别利用了搜狐新闻分类语料以及搜狗话题检测与发现语料进行评估,均得到较为准确的结果。
其他文献
随着计算机网络技术的发展和计算机网络的广泛应用,人们对网络的实时性要求越来越高,因而对ATM网实时通信的研究近年来已经成为实时系统研究的一个热点问题。ATM是一种面向连接
该文的主要内容就是地震预报专家系统推理机的开发,并以此为基础对解释的个性化进行研究与探索.首先,该文论述了解释的概念、解释研究的基本内容及其作用,总结了专家系统中常
虚拟内窥镜是用计算机处理CT或MRI获取的三维医学数据,以获得类似用标准内窥镜观察病人内脏过程观察效果的一种诊断的新方法。由于传统的内窥镜技术存在着许多的弊端,科学工作
随着半导体工艺的发展,异质结双极晶体管(HBT)以其高输出功率、高振荡频率、高电流驱动能力、低噪声、超高频等优良的性能,越来越受到人们的关注.随着HBT在微波电路中的应用
水印是一种应用很广泛的版权保护技术,但目前的应用多集中于多媒体方面,有关软件版权保护方面的应用的研究还比较少.随着信息技术的发展,软件版权纠纷正变得越来越突出,我们
随着分布式计算、关键性业务和电子商务的普及,为解决不同硬件平台、操作系统、网络和数据库之间信息的共享,中间件作为企业的基础软件,得到了越来越广泛的应用.特别是在大规
第三代移动通信将使人们在得到语音服务的同时,享受到无线宽带数据通信服务.虽然由于种种原因,第三代移动通信到来的脚步有所趋缓,但市场的需求依然存在,第三代移动通信所描
最近十年来,人工神经网络,尤其是前馈神经网络和BP算法获得了极其广泛的应用.BP算法的出现弥补了神经网络在实际应用中难以确定权值的不足,使得具有很强识别功能的关向多层神
随着软件技术的发展,程序的规模逐渐增大,复杂度也逐渐增加。在软 件的开发过程中,完全依靠人力进行分析测试效率太低,而且不能保证软件 质量。测试过程中的一个主要问题是生成
该文分析了成本控制系统的特点,提出了适合离散制造类型企业的成本计划与控制模型,并阐述了成本计划的概念、特点,给出了成本计划的定义,依据成本控制的原则,定义了成本体系