论文部分内容阅读
在科学技术不断进步和发展的时代,越来越多的人通过网络发布和获取信息、参与讨论和发表自己的意见,于是网络舆情成为政府以及企业重要的信息来源和参考。网络舆情中的热点话题反映了舆论的风向,及时发现网络舆论危机,采取适当的措施控制和引导热点话题的发展,对于构建稳定和谐社会具有重要意义。但是由于网络庞大复杂,网民数量剧增和行为活跃带来的海量信息,加大了热点话题的发现的难度。话题识别和话题跟踪的研究因而受到越来越多的重视,文本学习是话题识别与跟踪技术的基础,人类的语言是复杂的逻辑性强的,文本转化成计算机能够处理的形式会丢失大量的信息,即使文本的最表面和简单的信息转化过后,却又带来新的高维和稀疏的难题,所以话题识别与跟踪的效果一直有个能力上限。文本预处理的质量、特征提取算法的选择、文本聚类和分类算法的选择和改进都会对话题识别与跟踪的结果产生重大影响。本文针对现在使用的话题识别与追踪技术各有所长,而各自适合于不同的环境的情况,综合考虑和选择多种不同算法的来比较话题识别与追踪的结果,选择最佳的算法,设计和实现了网络舆情话题识别与跟踪系统,提供给用户热点话题列表、话题列表中的话题的所有相关报道列表,用户可以选择的需要跟踪的热点话题的列表,用户可以搜索站内热点话题,直观地查看话题聚类分布、话题发展历史热度以及相关信息的可视化图示,此外用户还可以灵活配置和选择适合自身的最优算法或算法组合。本系统具有以下特性:(1)集成性。网络舆情话题识别和跟踪系统为用户提供了话题相关全方位的信息。在话题呈现方面,集成了话题和网页列表,话题类簇分布图,话题发展历史热度图,话题来源分布图,话题实体分布图等;在算法方面,集成了一个算法框架可供选择。(2)交互性。网络舆情话题识别和跟踪系统允许用户主动搜索热点话题;网络舆情话题识别和跟踪系统允许用户自由配置聚类分类策略算法或算法组合,以满足使用条件,达到话题识别和跟踪的最优化。