论文部分内容阅读
文本聚类是文本挖掘的一项重要技术,可广泛应用于文本挖掘与信息检索等方面。在大规模文本集的组织与浏览、文本自动分类等方面都具有重要的应用价值。随着互联网技术的高速发展,网络上文本信息的增长率急剧增大,如何对这些网页中的文本内容进行有效的聚类分析已至关重要。因此,对互联网文本信息进行聚类及相关分析处理具有重要的意义。传统k-means算法具有算法简单、可伸缩、高效性等优点,但初始中心点的选取会对聚类结果产生较大的影响。提出了一种k-means算法的改进算法KMDE,利用差分进化算法寻找最优的初始中心点,可有效地改善k-means聚类效果。并将KMDE聚类算法应用到互联网文本信息处理系统--IPS中。IPS系统主要实现了四个独立模块,每个模块及其功能介绍如下:(1)数据预处理模块:主要实现文本过滤、中文分词、特征选择等功能,最终将文档集中的中文文本生成固定格式的文件。(2)数据分析模块:对已处理成特定格式的数据,选择不同的聚类算法实现对中文文本内容聚类,并将聚类结果以不同的形式输出显示并存储。还可利用BayesNet分类算法对中文文本进行自动分类。(3)信息展示模块:根据关键词搜索数据库的数据记录,并将搜索结果返回到客户端浏览器显示。此外,还实现最新消息展示功能,可将采集到的最新消息呈现给用户。(4)信息采集模块:获取Internet网页数据信息;对网页正文内容及其他相关信息进行提取、存储。对各模块的功能进行测试,结果表明IPS系统能够很好地完成对互联网文本信息进行聚类及相关分析处理。