基于密度和蚁群的混合聚类算法研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:w346399938
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网快速发展、广泛普及的时代下,非结构化数据(文本、图片、图像、视频等)呈爆炸式增长,人们花费在信息筛选的时间也越来越多,如何从大量的数据中挖掘出潜在有用的信息成为了学者们研究的热点。在这种情况下,本文关注文本数据的挖掘,利用聚类算法对文本数据进行组织、归类,发现有用的信息,减少人工整理文档的工作量,具有广泛的应用场景和深远的研究意义。本文聚焦于文本聚类应用,分析传统聚类算法的一些优势和不足,通过对聚类结果的有效性评价,提出了基于密度峰值和蚁群聚类的混合聚类算法。该算法从类中心点的选择、数据点的分配以及类合并三个方面给出了相应的计算流程,并最终将算法应用到文本聚类当中。本论文主要有以下几个工作:第一,蚁群聚类算法作为元启发式算法,具有全局优化能力、随机性和探索性,然而存在收敛慢的问题,本文使用改进后的蚂蚁拾起放下物品的计算方式,更有效的利用数据和周边数据的相似度计算拾起放下的概率,在一定程度上加快了算法的收敛速度;第二,密度峰值快速搜索算法虽然高效、简洁,但是存在需要运用可视化方式人为参与中心点的选择以及当簇分布均匀时,会把某些簇分为几个子簇的问题。针对这两个问题,本文考虑新的数据特征γ_i,引入蚁群聚类算法,将蚁群聚类算法与密度峰值相结合,提出新的聚类方法——DPACO算法。该算法运用蚁群聚类算法的探索性和随机性,对数据进行前期的初始聚类,并结合γ_i得到聚类中心,随后结合距离计算方式对数据进行聚类。通过实验证明,该方法在数据集上都取得了最优的结果。最后,论文将DPACO算法应用于文本聚类中,模块化的设计实现了文本聚类流程。实验数据集采用搜狗分类文本语料库,运用Jieba分词对文本进行分词,通过文本预处理系列操作,运用多种文本向量化模型,结合DPACO算法对数据集进行聚类,实验结果表明,算法在文本挖掘中具有有效的结果。
其他文献
<正>电子证据是一种新的证据形式,目前法律还没有明确的规定。笔者认为,以电子形式存在的、能够证明案件真实情况的、具有证据价值的一切材料及其派生物, 均为电子证据。所谓
目的:探讨儿童周期性呕吐综合征的临床特点,提高临床诊治水平.方法:回顾性分析2010年6月~2013年1月在本院诊断的12例儿童周期性呕吐综合征的临床资料.结果:12例患儿,男5例,女7例,
对尿素在活性染料染色中的应用进行了初步探讨,对其作用机理进行了一定阐述。
目的探讨p16、Ki67蛋白在宫颈病变组织中的表达变化及其临床病理学特征意义。方法选取我院收集的40例宫颈癌组织、40例宫颈上皮内瘤变(CIN)组织、40例宫颈炎组织,采用免疫组
保险是进行风险管理和控制的基本手段。职业学校学生实习责任保险保障制度的建立,有利于推动职业学校顶岗实习的健康开展,保障职业教育人才培养模式的顺利实施,完善职业学校顸岗
研究检验了组织正式(工具性支持)与非正式(职业生涯后果、上级支持)的工作-家庭支持措施对员工相关的结果变量的影响,包括工作-家庭冲突感知、离职意向和工作满意度.数据采用问卷
精神富裕有着特定的内涵。为人之基础、固党之根本、兴族之关键、强国之支柱与立世之依靠是其价值突出昭显。而精神富裕的构建,要坚持主导性、先进性、普适性三原则,构建激发
互联网技术的快速发展,使得数据的重要性越来越明显。无论是研究机构,还是企事业单位对数据的重视程度都提升到了一个新的层面。如何从大量的数据中提取出对于研究或者企业有
当前世界经济增长较为缓慢,欧洲国家经济发展受欧债危机影响持续走低,美国至今未能完全走出次贷危机阴影,新兴经济体和发展中国家的高速增长明显放缓,世界经济总体呈现“弱增
柱塞泵是典型的往复机械。为了掌握往复式柱塞泵的工作状态,测取3S175系列柱塞泵正常工况和一些故障工况下液力端的振动信号,对其进行局域波时频处理后,得到了有价值的检测部