论文部分内容阅读
聚类是无监督机器学习的一种,在不需要先验知识的情况下,根据数据间的相似性将数据划分为不同的集合,称为类簇。聚类在自然科学、机械工程、生物医学等众多领域得到广泛的应用。因此,获得一种高质量的聚类算法对学术研究和生产生活都有重要的意义。根据算法分析数据的状态,聚类可以分为针对静态数据的经典聚类算法和针对数据流的数据流聚类算法。快速搜索与密度峰值发现算法DP,是新近提出的基于局部密度和距离的聚类算法。该算法具有能够发现任意形状的类簇、逻辑简单易于理解、超参数少并且可以高效划分数据的优点。但是该算法无法处理单个类簇中同时存在的多个密度峰值,以及存在数据划分不稳定的不足。同时,当数据分布不均匀时,无法准确识别稀疏类簇和小规模类簇。因此,本文聚焦于对DP算法的改进和推广,提高DP算法的聚类效果和使用范围,分别提出针对静态数据与数据流的改进算法,本文主要内容包括:1.针对静态数据,提出基于影响空间的稳健密度峰值聚类算法,I-DP(Influence Space Based Robust Fast Search and Density Peak Clustering)。该改进算法引入影响空间,制定一种新的数据划分策略,对拥有高密度的数据采用该划分策略以提高算法划分的稳定性。提出新的局部密度计算公式,通过邻近数据计算加权局部密度,提高算法对小规模类簇和稀疏类簇的识别能力。2.针对数据流,根据数据流的特点,提出基于EDA框架的基于经验数据分析的数据流密度峰值聚类算法,EDA-DP(Density Peak Clustering based on Empirical Data Analysis over Data Stream)。该算法采用EDA框架在不需要预聚类的情况下,实时捕获数据流生成微簇,并且动态调整微簇的统计信息。当收到聚类请求时,EDA-DP算法执行改进的DP算法,生成决策图,选取中心微簇,得到最终的数据划分。3.文章最后研究了经典聚类算法在文本分析中的应用。将K-means、DP、I-DP算法结合向量空间模型(VSM)、潜在语义索引模型(LSI)和隐含狄利克雷分布模型模型(LDA),根据文本之间的相似性,分别对中文语料与英文语料进行聚类分析。对比实验表明,本文所提出的I-DP以及EDA-DP算法在多种评价指标中均取得较好的结果。在文本分析的应用中,I-DP算法相对于DP算法的F1指标提高了9%。