论文部分内容阅读
互联网的发展让我们的生活世界成为了地球村,网络的便捷性使人们每时每刻都能够从网络上获取信息。随着Web2.0技术的应用,人们不再只是简单的获取网络上的信息,而是成为了网络消息的创造者,同时还能够通过网络发表自己的观点看法,表达自己的情感。网络上的信息爆炸性增长,人们在面对如此多的信息时可能会不知所措,同时这也给我们的政府提出了一个挑战。由于网络的实时性,信息的传播速度非常快,一件事情很快就能够被大范围的网民所知道,尤其是一些关于社会民生的事件,更是容易引起广大网民的关注;还有一些别有用心的人,故意在网络上散布一些虚假、敏感的信息,利用网络水军进行大范围的传播,这很容易导致网络舆情的发生。而这些舆情信息对于社会的和谐稳定是非常不利的。因此需要能够有效的对网络上的舆情信息进行监控,实时掌握网络舆情信息的动态是非常有必要的。针对网络舆情监控,国内外都进行了大量的研究。国外对于网络舆情认识比较早,且非常重视,现在已经形成了比较成熟的监控机制和监控系统。但国内起步较晚,近年来才引起政府的重视,也成为了学者研究的热点问题。国内经过这几年的努力也取得了一定的研究成果,出现了一些网络舆情监控系统用于对互联网上的舆情信息进行实时监控,但目前的舆情监控系统中使用监控技术主要有两种,一种是基于敏感词匹配的方法,系统中提前设定一些敏感词,通过对网络上信息进行检索匹配,如果含有这些敏感词的信息被视为舆情信息;另一种就是基于词频统计的文本分类聚类的方法。这两种方式都取得了一定的效果,但这两种方式都存在着一定的缺陷,它们都不是建立在对文本内容语义信息理解的基础上进行的,以至于在准确发现舆情信息方面存在不足。因此,本文对如何提高舆情信息发现准确度方面进行了深入研究,尝试使用目前比较成熟的主题模型应用于舆情信息监控系统当中,利用主题模型在语义挖掘上的优势填补上述传统方法中的不足。本文主要内容为:1)详细分析了传统舆情监控系统中所使用的技术,如信息采集、信息预处理、中文文本分词、文本表示模型、文本聚类等。同时研究了基于词频统计的舆情分析的不足。2)提出了基于LDA主题模型的舆情信息分析方法,通过对文本集进行LDA主题建模,发现文本中的隐含主题,提高舆情分析的准确度。3)基于理论分析,设计并实现了一个网络舆情监控系统,系统实现了舆情搜索,每日舆情,热点舆情信息等功能。