基于蚁群的文本文档聚类技术研究

来源 :武汉科技大学 | 被引量 : 0次 | 上传用户:goddragon007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是数据挖掘和信息检索领域的一个重要研究方向。随着网络上堆积的数据日益庞大,且大部分数据以文本形式存储,人们对从大量文本中获取信息的需求越来越高。文本聚类方法具有无监督的学习能力,可由计算机自动进行,通过比较文本的相似性,发现文本内在特征及分布规律,它既可对web文档进行有效地组织,还可形成分类模板用来指导web文档分类,以便检索和阅读,所以对文本聚类技术的研究就显得尤为重要。近年来,人们受自然界中蚂蚁堆积尸体等现象的启发,提出了基于蚁群的聚类算法(Ant-colony Text Cluster Algorithm)。蚁群聚类算法与文本聚类技术的结合形成了基于蚁群的文本聚类算法,该算法具有良好的扩充性、并行计算和正反馈,不必预设聚类中心数目,实现自组织聚类过程,具有健壮性、可视化等优点,但仍存在不足。本文将禁忌算法的思想引进蚁群聚类算法中,提出了蚁群禁忌融合的文本聚类算法ATTCA(Ant-Tabu Text Cluster Algorithm)。在蚁群算法生成初始解后,禁忌搜索算法在初始解的基础上进行局部搜索,这样既克服了蚁群算法易陷入局部最优的缺点,同时也克服了禁忌搜索算法对初始解的依赖性,实现二者优势互补。实验结果表明,改进后的算法较基于蚁群的文本聚类算法具有更高的准确率。
其他文献
电力是人们生活越来越不可缺少的一种能源,但是随着非线性负载在电力系统中的增加,使得电力系统受到的谐波污染日趋严重。电力谐波带来的危害,既影响电网中接连设备的寿命,也影响电网的自身安全。针对电力谐波进行研究,找到防治办法是非常重要的,防治的首要前提就是及时正确的获取谐波数据。本文针对要获取的电力谐波数据进行了分析,提出了基于USB的数据采集方案,并比较了基于传统总线的数据采集方式。随后,对USB的体
计算智能方法是受大自然智慧和人类智慧的启发而设计出的一类算法的统称。无论是在科学研究领域,还是工业生产领域,人们都避免不了遇到一些全局优化问题,然而随着时代的进步,
三维人脸重建和人脸动画合成画是当前计算机图形学、计算机视觉和图像处理领域中一个热点研究课题,在视频会议、影视制作、通讯等方面有着广泛的应用,具有很大的应用价值和商
电子地图具有对纸质地图的内容进行任意形式的要素方便组合、拼接成新地图的优势,可对电子地图进行任意比例尺、任意范围的绘图输出。本文通过对甘肃省庆阳市巴家咀水库的地
流形学习是近年来机器学习的热点问题之一,其目的是要发现嵌套在高维空间中的低维流形。本文针对流形学习研究中存在的几个不足,即:1)如何适合地度量流形问的距离;2)如何有效地
随着互联网和通信技术的发展,用户对于通信网络的要求越来越高,传统单一的无线网络技术已经不能支撑用户日益增长的需求。虽然不同无线网络的异构融合技术的出现在一定程度上
在现有的软件开发过程中,高层的设计概念和实现这些设计的程序设计语言成分之间常常缺乏直接的对应关系,导致很多设计概念湮没于琐碎的代码中。不能从代码中恢复出这些设计概念
语音识别技术经过50多年的发展,已经在社会生活中得到了广泛的应用。在语音识别技术的发展历程上形成了各种理论和方法,如矢量量化、隐马尔科夫模型、神经网络等,隐马尔科夫
TTCN-3是一种标准的测试描述语言,可用于多种通信端口上的各种响应系统的测试。TTCN-3已经被广泛地应用于协议测试。TTCN-3不仅可以用于功能测试,还可以用于其它类型测试,如
信息的传播与扩散在当今信息社会显得非常重要,而如何利用人与人之间的联系,使得信息迅速、广泛的传播成为社会网络研究的一个重点。Domingos和Richardson将此抽象为影响最大