快速搜索与密度峰值发现算法的研究与应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:skang08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是无监督机器学习的一种,在不需要先验知识的情况下,根据数据间的相似性将数据划分为不同的集合,称为类簇。聚类在自然科学、机械工程、生物医学等众多领域得到广泛的应用。因此,获得一种高质量的聚类算法对学术研究和生产生活都有重要的意义。根据算法分析数据的状态,聚类可以分为针对静态数据的经典聚类算法和针对数据流的数据流聚类算法。快速搜索与密度峰值发现算法DP,是新近提出的基于局部密度和距离的聚类算法。该算法具有能够发现任意形状的类簇、逻辑简单易于理解、超参数少并且可以高效划分数据的优点。但是该算法无法处理单个类簇中同时存在的多个密度峰值,以及存在数据划分不稳定的不足。同时,当数据分布不均匀时,无法准确识别稀疏类簇和小规模类簇。因此,本文聚焦于对DP算法的改进和推广,提高DP算法的聚类效果和使用范围,分别提出针对静态数据与数据流的改进算法,本文主要内容包括:1.针对静态数据,提出基于影响空间的稳健密度峰值聚类算法,I-DP(Influence Space Based Robust Fast Search and Density Peak Clustering)。该改进算法引入影响空间,制定一种新的数据划分策略,对拥有高密度的数据采用该划分策略以提高算法划分的稳定性。提出新的局部密度计算公式,通过邻近数据计算加权局部密度,提高算法对小规模类簇和稀疏类簇的识别能力。2.针对数据流,根据数据流的特点,提出基于EDA框架的基于经验数据分析的数据流密度峰值聚类算法,EDA-DP(Density Peak Clustering based on Empirical Data Analysis over Data Stream)。该算法采用EDA框架在不需要预聚类的情况下,实时捕获数据流生成微簇,并且动态调整微簇的统计信息。当收到聚类请求时,EDA-DP算法执行改进的DP算法,生成决策图,选取中心微簇,得到最终的数据划分。3.文章最后研究了经典聚类算法在文本分析中的应用。将K-means、DP、I-DP算法结合向量空间模型(VSM)、潜在语义索引模型(LSI)和隐含狄利克雷分布模型模型(LDA),根据文本之间的相似性,分别对中文语料与英文语料进行聚类分析。对比实验表明,本文所提出的I-DP以及EDA-DP算法在多种评价指标中均取得较好的结果。在文本分析的应用中,I-DP算法相对于DP算法的F1指标提高了9%。
其他文献
<正> 随着人口的迅速增长,现有的耕地面积已越来越难以满足人类的需求。为此,农业科学家们已经探索出一种新型的种植方式:水上种植。水上种植就是利用一些浮体材料,将植物种
期刊
以甘露醇为内标物 ,Waters Suger- Park- 1钙型阳离子交换柱为固定相 ,0 .0 5 g/L EDTA钙钠水溶液为流动相分离 ,示差折光仪为检测器 ,高效液相色谱法一次进样同时测定料液样
引入变异系数和相关性分析,结合入境游客的群体特征与时空差异,详细分析了旅陕入境旅游流与三大口岸的空间差异及关联度大小。研究表明,入陕外国人、港澳台游客流和三大口岸入境
互联网金融产业是目前我国经济市场的话题热门产业,我对当前互联网金融产业的发展进行了简要的分析并且提出了若干思考。文章首先介绍了互联网金融的概念供读者参考,此后从互
支配三个名词性词语才能构成意义自足的最小主谓结构的动词就是三价动词.由三价动词为核心构成的短语模式称为三价动核语模.动核语模按核心数量的多少可分为单核语模、双核语
<正>64层CT开创了容积数据成像的新时代,提高了探测器的覆盖宽度和图像分辨力[1]。本文回顾性分析36例经手术病理证实的输尿管梗阻性病变的64层螺旋CT表现,讨论容积CT诊断特
H2/CO深冷分离是利用各个物料沸点不同而实现的分离,将原料气中的H2、N2、CH4脱除得到99.5%以上的高纯度CO合成气。主要介绍深冷分离装置运行过程中出现的问题及处理方法,优
<正> “铁塔高, 铁塔高, 铁塔只打繁塔腰。” 这是很久以来开封市流传的一句俗语。 可能有人会说:这句话错了。铁塔身高54.66公尺,而繁塔又粗又矮,只有31.67公尺,怎么能说铁
目的探讨眼底血管造影中前房荧光素渗漏情况在早期新生血管性青光眼治疗中的临床意义。方法对100例(118眼)裂隙灯下虹膜未见明显新生血管的缺血性视网膜病变患者行眼底血管造影
数字技术的应用不仅提高了动画的制作效率,而且大大改变了动画的艺术语言,在二维空间内线条和形状是主要造型元素,而在三维动画里,空间、光影、色彩这些造型元素已超过线条和