论文部分内容阅读
随着互联网的普及和发展,网络作为继传统媒体之后的第四媒体,其影响已经全面而深刻地渗入到了人们的政治、经济、文化生活等各个方面。网络传播具有自由性、交互性、开放性、虚拟性和隐蔽性等特点,既提供了大量进步、健康、有益的提倡性信息,也有不少反动、迷信、低级的误导性言论,因此对网络舆情进行分析和预警已经成为一个非常重要的现实需求。
网络公共舆情的来源按交流方式主要分为两类。一类以BBS为代表,数据之间具有明显的交流关系,对BBS的内容监控可以直接使用文本挖掘的技术;另一类以公共聊天室为代表,聊天数据不具有明显的交流关系,对公共聊天室的内容安全监控需要构建聊天室的社会网络,即发现用户之间的交流关系。而上述两类场景的监控都首先必须对网络数据进行特征提取,将数据转化为计算机可以处理的格式,然后才可以使用各种分析技术对数据进行挖掘。
本文以网络舆情分析为背景,重点研究面向BBS和公共聊天室两类代表性数据的特征提取问题。针对这两种数据,我们分别设计了相应的针对性的特征提取方法:并最终围绕这两类数据环境,构建了一个网络舆情监控原型系统。论文的主要工作包括:
1.设计了针对BBS数据的特征提取方法。首先,考虑到帖子标题的重要性,修改了经典权重计算的TF*IDF方法,将帖子标题中的单词权重加大:其次,鉴于大多数BBS数据具有明显的短文本特点:关键词稀疏,信息不完备等,我们根据帖子之间的回复关系构建了一棵回复关系树,在树的每条回复链上从上到下和自下而上地进行特征的传递和权重的调整,可以有效改变原来帖子特征的稀疏性,使它的信息更加趋于完整,主题更加明确,这样将能够改善我们文本挖掘算法的效果。
2.构造了有效的聊天室社会网络挖掘中的特征提取方法。针对聊天室数据的特点和聊天室社会网络挖掘的需要,我们对Mutton方法的启发式规则进行了修正和进一步扩充,并且引入内容相似性特征;然后采用集成学习的策略,基于多特征融合进行聊天室社会网络挖掘。
3.综合本文提出的上述两种特征提取方法,设计并实现了一个网络舆情监控原型系统。