增量文本聚类在舆情监控中的研究与实现

被引量 : 3次 | 上传用户：hubai123

【摘要】

：

互联网的高速发展使得人们可以方便地通过博客、论坛以及转贴来表达自己的思想、情绪和态度。这种信息具有扩散迅速等特点,某一个话题可能在短时间内被大量阅读、转载。其中,

【作者】

：

王利峰

【发表日期】

：

2010年01期

【关键词】

：

舆情监控增量文本聚类动态索引树多代表点动态索引树聚类多代表点动态索引树增量聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的高速发展使得人们可以方便地通过博客、论坛以及转贴来表达自己的思想、情绪和态度。这种信息具有扩散迅速等特点,某一个话题可能在短时间内被大量阅读、转载。其中,不仅包含人民群众对政府的谏言献策,也包括一些反动组织的恶意诽谤。因此,政府部门需要通过对互联网实施监控,获得一定时期内网民谈论的热点话题,并从中分析、提取出有价值的内容,进而采取相应措施,对网络舆论进行合理的引导。由此可见,对网络舆情进行有效的发现与监控变得非常重要。网络舆情监控一般分为数据采集、文本预处理、文本挖掘以及结果展示四个方面。文本挖掘负责自动发现新的热点话题,是系统的核心部件。其中自动热点发现主要采用文本聚类的方法。由于互联网中的信息数目庞大,如果在每次采集完数据后,都对整个数据集进行一次聚类,势必会耗费相当长的时间,因此增量文本聚类被广泛应用在舆情监控系统中。本论文深入地研究了现有的文本聚类和增量聚类算法。根据网络舆情监控的特点,在结合动态索引树聚类算法的基础上,提出了多代表点动态索引树聚类算法和多代表点动态索引树增量聚类算法。实验结果分析表明,本算法取得了较高的聚类分析精确度和新事件发现率。本文主要工作如下：(1)本文结合动态索引树聚类算法与多代表点理论,提出了多代表点动态索引树文本聚类算法(MRITC)。该算法将聚类结果表现为一棵多叉树,其中叶子结点代表文档,非叶子结点代表类簇。对于每一篇新加入的文档,先在树中找出与其最相似的叶子结点,然后顺着树根结点至最相似叶子结点的路径依次尝试插入,直到找到最适合的插入位置。同时,该算法中,每个类簇选择可以代表其形状的k个结点作为该类簇的代表点。这种方法有效地避免了原算法中类簇中心偏离、依赖于记录输入顺序等弊端。通过对实验结果的分析,该算法较原算法具有更高的准确度和更好的聚类效果。(2)基于第3章中提出的MRITC算法,设计了多代表点动态索引树增量聚类算法(MRITIC)。该算法首先对新出现的文档集运用MRITC算法生成新的聚类结果树,再将原有聚类结果树中除根结点外的结点合并入新树中,最后将原来的离群点依据MRITC算法重新插入。在整个合并过程中,算法会依据类簇与类簇间、文档与类簇间的相似度,对已归类文档和类簇重新归类。通过实验结果分析证明,该算法具有较高的准确率与新事件的发现率。(3)设计实现了一个通用的聚类框架。该框架不仅不依赖于待聚类的数据集类型,同时又能生成统一的聚类结果模型。这使得框架具有良好的扩展性和实用性。该框架在建立文本特征向量空间模型时,先通过Lucene对文档生成索引文件,然后读取索引文件,获得词条、文档、词频信息,并建立每篇文本的特征向量空间模型。由于Lucene的中文分词效果不理想,本框架选择调用天津海量分词库进行中文分词,以获得较好的分词效果。(4)基于实现的聚类框架,集成了数据采集模块、文本预处理模块、WEB数据挖掘模块和结果展示模块,整合开源工具,在.Net4.0平台下设计实现了一个舆情监控的原型系统。。

其他文献

房地产企业营销策略选择的影响因素研究

我国的房地产业发展相对较晚,房地产的营销策略经历从模糊到清晰、从摸索到谙熟、从初级到高级这样一个循序渐进的历程。房地产这个产业作为宏观经济的基础性产业、先导性产

学位

房地产营销策略影响因素

用于农药残留检测的压电免疫生物传感器的研究

我国农产品(如蔬菜、茶叶、水果等)中农药残留问题仍相当突出,农药残留超标和农药中毒事件时有报道,农产品中农药残留威胁着人民身体健康。快速测定技术是监控农药残留的有效

学位

压电免疫生物传感器三唑磷农药电化学阻抗谱石英晶体微天平循环伏安法自组装膜

用于有机磷农药残留检测的免疫生物传感器的研究

农药广泛用于农业生产中,给社会带来了巨大的经济效益。另一方面,农药的广泛使用也会给环境和人类健康带来严重的影响。农药的定性和定量检测的标准方法是基于色谱方法,如气

学位

免疫生物传感器有机磷农药电化学阻抗谱石英晶体微天平循环伏安原子力显微镜生物素-亲和素系统对硫磷三唑磷

我国青少年健康促进的家庭教育视角研究——以洛克《教育漫话》为例

青少年健康促进是改善青少年生活方式,提高其生命质量的重要途径。探寻洛克的家庭健康观念和家庭健康促进行为,可为当前家庭教育所借鉴。采用文献资料法、逻辑归纳法等从家庭

期刊

洛克青少年家庭教育健康促进

葡萄糖响应性嵌段共聚物胶束及对胰岛素的控制释放

葡萄糖响应性材料在胰岛素控制释放领域具有潜在的应用价值,负载胰岛素的葡萄糖响应性材料,可以根据环境中葡萄糖浓度变化响应性地释放药物,在糖尿病治疗方面具有一定的应用

学位

葡萄糖响应胶束自组装11B 3Q MAS NMR胰岛素控制释放

上市公司财务报告舞弊识别研究

会计舞弊问题几乎是随着资本市场的产生而产生的,在会计舞弊问题中,财务报告舞弊成为最常见的问题之一。且近些年来,财务报告舞弊问题大有愈演愈烈之势,国内外发生的重大财务

学位

会计舞弊财务报告舞弊Logistic模型

中国金融控股公司监管模式选择

当前,金融控股公司已经成为国际金融业发展的主要趋势。但由于金融控股公司内部日益复杂的股权关系、关联交易、利益冲突和不断创新的金融衍生产品,这都使金融控股公司风险不

学位

金融控股公司监管模式金融危机

企业大学生员工离职影响因素的实证研究

近年来,大学生频繁跳槽的现象已经成为人们关注的一个热点,我们知道新进的大学生员工是企业的新鲜血液,是企业保持生机的源泉,是企业未来发展的储备力量。因此,合理的引进大

学位

大学生员工离职倾向工作满意度组织承诺度IT行业

清代土地制度演进分析

当前我国农村土地制度暴露出一系列弊端,因此,土地制度改革已成为研究的热点和难点。改革的设计离不开对历史的借鉴。对不同时期的土地制度变迁进行分析和总结,探究变迁轨迹

学位

清代土地产权制度变迁土地地租

不同体育中考对中学生体育意识与体育行为的影响研究

随着社会的发展,人们的生活方式以及自然环境的变化,缺乏体育锻炼是目前全世界人们面临的问题。在我国高血压、心脏病已经开始走向低龄人群,青少年是祖国的未来,他们的健康状

学位

体育中考中学生体育意识体育行为

增量文本聚类在舆情监控中的研究与实现

与本文相关的学术论文