论文部分内容阅读
随着信息传播的重要新媒介网络的产生,BBS已经成为了传播最快的公共平台之一。在这个复杂的网络环境中,社会中各种现象、问题和观点交错其中,不但存在着正面的信息,也潜存着危险的信号。所以把握舆情,对舆情信息进行分析就是亟待解决的问题。但目前已有的系统大多是对新闻网页进行分析,针对BBS的舆情分析系统还有待开发。
本文针对上述的问题,汲取了已有技术的优势,同时结合BBS的特点,改进并设计了面向BBS的数据采集、主题分类和关键词提取等方法,同时构建并实现了一个面向BBS的舆情分析系统。本文围绕BBS的数据环境,以提高面向BBS的舆情分析效果为主要目标,主要研究了面向BBS的信息爬取、敏感话题监测和热点话题发现等模块的关键技术,主要的研究内容包括以下几个方面:
1.面向BBS的数据采集方法
研究并总结了BBS的数据特征,并结合特性改进舆情分析系统的数据采集和抽取方法。文本提出面向BBS的网络爬虫,根据其URL特征进行个性信息爬取;信息抽取时利用BBS数据的结构化特点,以基于模板的方法提取有效信息。
2.面向BBS的主题分类
文本充分利用BBS数据特征,改进了文本特征项抽取方法,提出了面向BBS的特征重调整方法;重点研究了向量空间模型并加以改进,提出基于VSM的BBS文本分类算法;利用改进的算法设计了面向BBS敏感话题监测机制。
3.基于词汇链方法的热点话题发现
本文研究了词汇链的构造与抽取方法并对其进行了改进,提出了面向BBS的相似度计算方法,并根据BBS的数据特征进行词汇链构造,设计出针对BBS数据的关键词抽取方法,同时构建出一种基于词汇链方法的热点话题发现机制。
4.面向BBS的舆情分析系统
本文设计并实现了面向BBS的舆情分析系统,完成了对BBS舆情的敏感话题监测、热点话题分析和舆情跟踪等功能,提高了BBS舆情分析结果的准确性和全面性。