论文部分内容阅读
互联网技术飞速发展,越来越多的网络信息以杂乱无章的方式呈现给用户。人们发现对自己感兴趣话题的发现、追踪甚至是管理变得越来越困难。尤其是一些突发性网络事件,它的随机性和突发性更增加了及时获取这一类信息的难度,也增加了管理的难度。农业关乎国民生计,它对社会稳定和经济发展起到至关重要的作用。近年来,涉农网络事件频繁发生,引起了社会舆论的广泛关注。话题发现与跟踪技术就是利用技术手段,将新闻信息流按照一定的话题组织起来,包括发现新的话题和旧话题的跟踪,这样就可以实现对话题的跟踪报道。本文就是利用话题发现与跟踪技术对网络涉农舆情事件实现话题发现与跟踪,生成相关话题的持续进展情况,进而掌握涉农网络事件的全貌。文章的主要工作有:1)提出基于话题词频的动态话题模型。它的基本思想是:在类簇目中出现词频较高的词对类簇具有较高的表达能力。2)基于突发词的动态话题模型。它的基本思想是:利用测试样本中突发样本的突发词来识别突发性样本,由于突发词对后续发生漂移的测试样本具有一定的表达能力,基于突发词的动态话题模型也可以减小话题漂移对文本聚类的影响。3)话题中种子事件的选择。它的基本思想是:在话题中选择若干个样本作为该话题的代表,话题的中心由被选择的样本确定。4)热点作者、热点网站和热点话题发现。热点的发现是建立在话题基础上的。根据作者发表报道和对报道的回复情况等信息,挖掘出作者的热度。根据网站所持有的话题或者主题信息发现热点网站。根据用户对报道的反应激烈程度来确定热点话题。5)可视化展现。利用Fusioncharts的可视化图形解决方案,将网络话题发现与跟踪的进展、当前热点作者和热点网站展示出来。6)实验部分。从新浪、搜狐和凤凰等门户网站抓取了10个话题共3867篇报道进行了对比测试。来验证提出的方法的可行性和有效性,实验结果表明本文所提出的方法在一定程度上提高了话题跟踪系统的效率。