论文部分内容阅读
伴随着Internet的普及和发展,网络上的资源越来越丰富,以电子形式存在的文本成为人们获取信息的主要来源,面对海量的信息资源,需要对其进行有效的组织和管理,以利于主题发现和信息检索。文本聚类是一个将文本集分组的全自动处理过程,是一种无监督的分类方法,根据文本自身的特点自动分成若干类,使得同类文本的相似性尽可能大、不同类文本的相似性尽可能小。特征选择和聚类算法是文本聚类技术的重要组成部分,本文针对这两部分展开研究。 首先,针对聚类缺乏类别的信息,无监督的特征选择方法很难选择出具有区分力特征词的问题,提出了一种集成的文本聚类无监督特征选择方法,将在文本分类领域成功运用的有监督特征选择方法应用于文本聚类领域。该方法首先利用K-Means聚类算法在选择不同K值得到不同聚类结果的基础上获得类别的信息,再利用有监督的特征选择CHIR统计方法选择出最优的特征子集。 其次,针对蚁群文本聚类算法中蚂蚁移动的随机性导致散点过多、算法收敛速度较慢等问题,提出了一种基于信息素的蚁群快速文本聚类算法。该算法利用信息素控制蚂蚁随机移动的策略,使蚂蚁始终朝着信息素浓度较高的方向移动,即蚂蚁经过次数较多、文本向量相对集中的区域,缩短了蚂蚁寻找文本向量簇的时间,加快了算法的收敛速度,提高了聚类结果的准确性。 最后,利用VC++开发工具实现一个基于信息素的蚁群文本聚类算法的实验平台,通过实验对文本聚类技术研究成果进行了验证,并对聚类结果性能进行了分析,为进一步的研究提供方向。