论文部分内容阅读
随着互联网的高度普及化,互联网对我们现实生活的影响也越来越大。面对互联网中日益增长的海量信息,当用户想要针对某一主题进行及时的跟踪和了解时,现存的互联网搜索引擎不足以满足用户的需要,舆情监控分析系统的出现能够很好的帮助用户对主题进行探测、追踪和分析。本文主要了研究了网络舆情主题探测与追踪技术和网络舆情情感分析技术。首先研究了这几项技术的国内外的研究现状,然后对其中较为重要的几项技术进行了仔细的学习和比较,比如:文本表示模型、中文分析、特征权重计算方法和文本分类等。并在此基础上,提出了本文的创新点,包括:(1)基于事件演化的主题探测和主题追踪模型。针对目前舆情监控分析系统存在的主题漂移现象带来的问题,利用种子事件和新颖事件的演化关系,提出了改进的向量空间模型和文本分类算法,经过实验分析证明,本算法可以在一定程度上解决了由主题漂移带来的主题探测与追踪准确率降低的问题。(2)基于事件多面性的情感倾向性分析。目前大多数的舆情监控分析系统的情感分析模块基本都是为了得到针对某一主题或事物评价信息整体的情感极性,而忽略了事物本身的多面性,本文通过抽取情感语句中的情感分析三元组实现对主题或事物评价信息的局部情感极性,使得情感倾向性分析功能模块更加完善。(3)基于Hadoop平台的舆情监控分析系统的设计。针对目前海量的互联网信息,大数据的存储和运算成为舆情监控分析系统实现的重要环节之一,鉴于Hadoop平台在大数据存储和运算的优越性,本文以此为开发平台对舆情监控分析系统进行了设计。本文通过对主题探测与追踪、情感倾向性分析技术的研究和探索,对两项技术有了深入的了解,并在此基础了针对目前已有的问题提出了改进,为舆情监控分析的研究工作提供了一定的技术支持,有着重要的理论意义。