网络热点新闻事件挖掘和跟踪分析方法的研究与实现

来源 :中南大学 | 被引量 : 0次 | 上传用户:q329118794
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文基于现代信息处理技术搭建了一个从获取新闻源,进行信息处理,运用文本挖掘技术对信息进行分析的系统。该系统不仅能够自动化的获取新闻信息,而且能够对网络中的新闻进行自动的分类和聚类,为用户推荐热门新闻,描述某个热门新闻在时间轴上的演化过程。协助用户或者一些机构去了解和认识网络中的信息演化过程。在系统的实现过程中,信息获取时,对通用的网页爬虫进行改进,使之能够适应定时定向的抓取。在保证信息数量的同时保证了更新的速度。而对于收集到的新闻信息,采用了先分类再聚类的策略来避免不同类别新闻的干扰,减小新闻聚类的噪音。在分类和聚类的过程中,词频的平滑、向量空间的压缩以及对KMedoids算法的改进不仅提高了效率,并且对新闻信息分析的准确率和召回率也有一定的提高,使新闻分类的准确率和召回率都达到了70%左右,减少了最后分析结果中噪音数据的出现率。新闻聚类的准确度也达到了86%。同时,为了便于用户浏览信息,在聚类过程中我们会自动生成有意义的新闻信息聚类标签来标示这类信息的含义,标签生成的准确性达到了92.5%。最后我们通过网页UI的形式并辅助信息数量演化的图表向用户展示信息的变化过程。整个系统有效的整合了Web信息处理中的关键技术,搭建了一个真实数据集上的小型系统,能够有效的为用户提供新闻热点追踪的服务。通过实际使用的观察,该系统每日提供的热点新闻都和实际情况是比较吻合的。热点新闻挖掘跟踪研究的主要作用在于:首先,能够使用户终端更快更全面的了解和知道自己关心的新闻话题及其整体的发展趋势。其次,网站的建设者能够根据分析结果了解网络用户的新近喜好从而更好的设计网站的内容,使网站的质量得到较大的提高;最后,新闻热点事件的挖掘分析也能够给互联网的演化的研究带来帮助,使网络监控者能够更好的对网络的内容进行控制和引导。总体来说,本文对新闻信息的这种整合和分析是十分有意义的尝试。
其他文献
通过公共建筑的分项计量装置进行其能耗实时监测并将数据上传至能耗监测平台,选取6栋建筑的一周能耗分项数据,对其照明用电和空调用电进行了逐日分析,并选出典型日的空调能耗
2018年11月18日,中共中央、国务院发布的《中共中央国务院关于建立更加有效的区域协调发展新机制的意见》明确指出,以京津冀城市群、长三角城市群、粤港澳大湾区等城市群推动
阐述了山西省祁县当前农业机械化发展的状况及存在的问题,分析了存在问题的原因,并提出了一些发展农业机械化的建议。
社会发展到今天已经属于计算机技术的天下,现在计算机技术的应用主要通过用户软件来体现,因此开发计算机软件成了计算机技术发展的重要部分,并且随着时代发展,对计算机软件的处理能力要求越来越高,这就加大了计算机软件开发的难度,此时分层技术在计算机软件开发中的应用优越性就体现出来。本文在介绍了分层技术概论的基础上对分层技术在计算机软件开发中的应用进行了详细阐述,希望对读者有所帮助。
近年来,随着我国城市化进程的加快、城市社会的来临,使得城市之间的竞合进一步加剧升级。不同资源禀赋的城市都在采取不同的竞争策略,力图在经济格局变动和城市发展转型中抢
英语教师在英语教学中的主导作用问题是一个长期引发讨论的焦点问题。本文试图通过分析过去英语教师在英语教学中的地位,阐述现代英语教学中教师的主导作用.探讨现阶段英语教师
3月27日,发轫于悉尼一名环保人士的伟大创想——“地球一小时”活动正式进入第四年历程。作为一个仅有四年历史的活动,“地球一小时”以不可思议的速度在全球蔓延,从最初只有几
福田雷沃国际重工股份有限公司(以下简称福田雷沃重工)通过创新农机服务模式,不仅树立了良好的社会形象,赢得了良好的口碑,还实现了社会、用户、代理商以及企业全价值链的和谐共赢
草莓属于喜温、喜光又较耐荫的多年生草本植物,植株生长温度范围15~30℃。由于周宁县位于闽东北山区,平均海拔800m,属于中亚热带海洋季风山地气候,年均气温为13.0~17.9℃,降
2009年1月7日,由江苏沃得集团农业装备有限公司赞助支持的“沃得杯”2008年全国农机化十大新闻评选活动在京举办。经过活动评委会认真讨论评议,采取无记名投票的方式评选出了20