论文部分内容阅读
人工神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,涉及生物、数学、物理、电子及计算机技术等各门学科,目前已广泛的应用于图像处理、数据挖掘、模式识别、工程计算等领域,并取得了令人瞩目的发展。
近年来,随着信息技术的不断发展,信息量呈现爆炸式增长,以“文本形式”存放的信息更是成为人们信息的主要来源。人们迫切的需要一个工具能从大量的文本信息中快速有效的发现资源和知识,于是文本挖掘技术应运而生,其中对于文本聚类的研究非常活跃,并取得了良好的成果。文本聚类是文本挖掘当中非常重要的一个分支,涌现出了许多的聚类方法,如基于层次的方法、基于模型的方法等,其中神经网络方法-自组织特征映射网络以其独特的优越性更是得到推广和应用。
本文首先阐述了选题的背景和实际意义,并对该领域的国内外研究动态做了简要介绍。综述了神经网络、文本挖掘的技术发展和研究方法,分析了神经网络的优越性,讨论了神经网络应用于文本挖掘的可行性和有效性。其次对聚类算法做了详细归纳和分析,并对比了主要的几种算法的优缺点。通过对自组织特征映射网络的分析,指出初始化权值对网络的收敛有重大影响,提出了初始化权值优化技术--覆盖方法,并应用Iris数据集做了测试。为了进一步提高文本聚类的精度,提出了基于粒子群优化的TKSOM聚类算法。该方法通过粒子群优化算法优化组合系数使获得的网络模型具有更好的识别能力,并且具有较好的自适应性。最后设计并实现了一个小型文本聚类系统,验证了算法的有效性。