论文部分内容阅读
随着Internet的飞速发展及其在全世界范围内的普及和应用,网络上存储了海量的信息资源,这些信息资源数量与日俱增,尤其以Web页面为载体的文本数据呈爆炸式的增长并越来越成为人们关注的主要信息来源。如何从数量庞大的文本信息中快速有效地发现知识已经成为人们迫切需要解决的问题;近年来针对文本数据的挖掘已经成为人们重点研究的课题,其中对文本的聚类研究引起了广泛的重视。本文首先介绍了文本挖掘的研究背景和发展现状,对文本挖掘中的文本聚类算法的相关技术进行讨论,针对文本表示模型、特征词提取、特征向量降维及文本相似度的计算等与文本聚类密切相关的关键技术进行了描述与分析,在次基础上展开文本聚类算法的研究。实现文本聚类算法的动态适应性是当前文本聚类算法研究的重要方向之一。本文在研究人工免疫网络(aiNet)模型的基础上,结合文本聚类的特点,对aiNet算法进行改进,实现了基于aiNet的文本聚类算法,为实现文本的动态聚类提供了一种新的解决思路。为克服基于aiNet的文本聚类算法在处理高维数据时性能下降的缺点,本文研究了免疫遗传机制和k-means聚类算法,将免疫遗传引入k-means算法优化聚类中心,提出一种基于免疫遗传的k-means文本聚类算法IGAK,有效避免了经典k-means算法易受初始聚类中心选择不当的影响而陷入局部最优的缺点;在此基础上设计了一种基于聚类中心的虚拟坐标映射机制的文本表示模型,实现了文本向量模型的降维技术;结合该虚拟坐标向量模型,定义了抗体、抗原、亲和力、相似度等概念,提出一种融合免疫遗传k-means和aiNet的两阶段文本聚类算法IGAK-aiNet。最后,设计并实现了一种文本聚类模型,给出了模型的主要模块设计、必要的数据结构和部分代码;应用相关文本数据进行了对比实验,实验结果表明新算法具有较强的动态适应性,改善了聚类质量。