基于文本降维和蚁群算法的文本聚类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:asdf200201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类技术作为文本挖掘中的一个技术分支,发挥着越来越重要的作用。文本聚类技术能够将相似的文本进行归类,方便了各个领域的人员从海量的文本信息中挖掘潜在的、有价值的信息。本文采用复旦大学中文文本语料库进行文本聚类研究,根据文本的相似度并结合相应的聚类算法将相似的文本聚集成簇。因为中文文本自身的结构特点,在文本聚类之前需要对文本进行相应的文本预处理,即对文本进行分词并去除无用的停用词。本文使用中科院分词系统(ICTCLAS)对文本分词并使用哈工大停用词表过滤停用词。接着为了得到能够有效表示文本内容的特征词,进行特征词的选择。最后考虑到计算机不能直接处理非结构或者半结构的信息,本文采用向量空间模型(VSM)来表示文本、词频-逆文档频率(TF-ID F)值来表示每个特征词的权重值。通过分析文本处理的整个过程发现,如果直接将预处理后的关键词直接组成向量空间模型,那么该模型就会存在着维度过高和数据元素稀疏问题。为了解决其问题,本文首先分两步对特征词进行筛选,第一步使用卡方检验的方法对特征词初步提取,得到特征词集合,第二步对特征词集合进行基于语义的层次聚类,合并特征词集合中同义或者相近的词。接着,计算过滤后特征词集合中每一个词的TF-II)F值并生成向量空间模型。然而,此时生成模型仍然具有着高维度和元素稀疏的缺陷,本文采用奇异值分解的方法,找到向量空间模型的隐含语义空间,实现向量空间模型的降维并减少了噪声点的干扰。通过以上方法的处理,保持了原有模型的特性,有效的降低了矩阵的维度,提高文本聚类的效率。文本降维处理后,接下来就是选择合适的文本聚类算法。目前存在较多的文本聚类算法,根据聚类实现方法的不同大致可分为基于划分、层次、密度、模型聚类方法。传统的文本聚类算法存在需预先确定簇数、无自组织等不足。所以本文采用了可以实现自组织的蚁群文本聚类算法作为最终的文本聚类算法。通过分析基本的蚁群文本聚类算法可知,基本算法中也存在着诸多的不足,比如迭代的次数过多、蚂蚁在二维平面中移动过于随机等等,这些因素影响了算法的收敛速度和文本聚类效果。本文在基本算法的基础上,采用了几种改进的措施,它们分别是修改算法终止条件使算法的结束不在简单的依赖最大迭代次数,避免了无意义空耗时间;动态调整蚂蚁的观察半径使蚂蚁以线性递减的方式调整观察半径,平衡了算法收敛速度和聚类效果;制定三种移动策略使蚂蚁在拾起、放下文本后移动的方向具有了目标性,提高了文本聚类的效果。最后,通过相关的实例展示了本文采用的文本降维方法的具体实现过程,证明了方法的可行性。使用复旦大学中文文本语料库进行了仿真实验,实验结果表明,改进后的蚁群文本聚类算法不仅加快了文本聚类的收敛速度而且提高了文本聚类结果的精度,完善了文本聚类的效果。
其他文献
伴随着计算机软件行业的飞速发展,用户对软件的质量要求也是越来越高。而作为保障软件质量的最后一道工序——软件测试,对软件质量更具有举足轻重的作用。如何有效地评估软件
无线Ad Hoc网络是一种多个节点聚在一起形成一个无人工干预的、多跳的、无预设基础设施的自组织网络,它在一定范围内实现多个移动终端的互联。军事通信是Ad Hoc网络的一个非
目前,随着各种新技术的广泛应用,我国的国民经济发展迅速,与此同时,能源危机和环境污染也在不断加剧,它们三者之间的矛盾越来越引起人们的广泛关注和重视,迫切需要通过解决这
膜计算作为自然计算的一个分支,其目的是从生物细胞的结构与功能中以及从器官和组织等细胞群的协作中,抽象出计算模型。膜计算模型被称为膜系统,也叫做P系统,具有良好的并行
随着多媒体技术的发展,用于传递信息的图像作为一种重要的媒体和手段,其处理技术受到越来越多人的关注和重视。本文以完成一个基于多尺度分析的智能图像压缩算法为指导思想,
随着社会信息化程度的加深与网络的普及,P2P技术以其低廉的成本与优异的性能,取得了越来越多的关注,发展迅猛。到目前为止,虽然很多基于P2P技术的应用相继被开发出来,但目前
书法碑刻是我国的传统艺术之一,是中华民族宝贵的文化遗产,是我国书法碑刻历史上遗留下来来的精髓和典范,它以独特的艺术魅力和风貌自立于人类社会的文化艺术之林。如何使这
天文学、高能物理学、生物信息学等现代科学应用领域通常包含成千上万个任务,并且需要处理大量的数据,因而需要大量的计算资源和存储资源。科学工作流作为一种流行和重要的机
成品油储运调度是炼油厂的生产活动中的一项重要内容。成品油储运调度包括成品油在厂内罐区的存储,以及从厂内罐区到车站、码头罐区的输送等问题,是一个连续离散时间混杂问题
随着计算机技术和网络技术的发展,Internet的规模不断扩大,网络带宽也在不断的提高,面向Internet的大规模分布式存储系统也得到了快速的发展,高效、可扩展的分布式存储结构成