论文部分内容阅读
互联网的高速发展使得人们可以方便地通过博客、论坛以及转贴来表达自己的思想、情绪和态度。这种信息具有扩散迅速等特点,某一个话题可能在短时间内被大量阅读、转载。其中,不仅包含人民群众对政府的谏言献策,也包括一些反动组织的恶意诽谤。因此,政府部门需要通过对互联网实施监控,获得一定时期内网民谈论的热点话题,并从中分析、提取出有价值的内容,进而采取相应措施,对网络舆论进行合理的引导。由此可见,对网络舆情进行有效的发现与监控变得非常重要。网络舆情监控一般分为数据采集、文本预处理、文本挖掘以及结果展示四个方面。文本挖掘负责自动发现新的热点话题,是系统的核心部件。其中自动热点发现主要采用文本聚类的方法。由于互联网中的信息数目庞大,如果在每次采集完数据后,都对整个数据集进行一次聚类,势必会耗费相当长的时间,因此增量文本聚类被广泛应用在舆情监控系统中。本论文深入地研究了现有的文本聚类和增量聚类算法。根据网络舆情监控的特点,在结合动态索引树聚类算法的基础上,提出了多代表点动态索引树聚类算法和多代表点动态索引树增量聚类算法。实验结果分析表明,本算法取得了较高的聚类分析精确度和新事件发现率。本文主要工作如下:(1)本文结合动态索引树聚类算法与多代表点理论,提出了多代表点动态索引树文本聚类算法(MRITC)。该算法将聚类结果表现为一棵多叉树,其中叶子结点代表文档,非叶子结点代表类簇。对于每一篇新加入的文档,先在树中找出与其最相似的叶子结点,然后顺着树根结点至最相似叶子结点的路径依次尝试插入,直到找到最适合的插入位置。同时,该算法中,每个类簇选择可以代表其形状的k个结点作为该类簇的代表点。这种方法有效地避免了原算法中类簇中心偏离、依赖于记录输入顺序等弊端。通过对实验结果的分析,该算法较原算法具有更高的准确度和更好的聚类效果。(2)基于第3章中提出的MRITC算法,设计了多代表点动态索引树增量聚类算法(MRITIC)。该算法首先对新出现的文档集运用MRITC算法生成新的聚类结果树,再将原有聚类结果树中除根结点外的结点合并入新树中,最后将原来的离群点依据MRITC算法重新插入。在整个合并过程中,算法会依据类簇与类簇间、文档与类簇间的相似度,对已归类文档和类簇重新归类。通过实验结果分析证明,该算法具有较高的准确率与新事件的发现率。(3)设计实现了一个通用的聚类框架。该框架不仅不依赖于待聚类的数据集类型,同时又能生成统一的聚类结果模型。这使得框架具有良好的扩展性和实用性。该框架在建立文本特征向量空间模型时,先通过Lucene对文档生成索引文件,然后读取索引文件,获得词条、文档、词频信息,并建立每篇文本的特征向量空间模型。由于Lucene的中文分词效果不理想,本框架选择调用天津海量分词库进行中文分词,以获得较好的分词效果。(4)基于实现的聚类框架,集成了数据采集模块、文本预处理模块、WEB数据挖掘模块和结果展示模块,整合开源工具,在.Net4.0平台下设计实现了一个舆情监控的原型系统。。