符号数据聚类算法研究及应用

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:q372245556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘的一个重要方法,被广泛应用在模式识别、Web搜索、图像处理等领域。迄今为止,大多数聚类算法针对数值型数据,然而现实世界中,存在着大量的符号数据,包括结构化的符号属性(类属型)数据和非结构化的符号序列数据。由于符号数据离散取值的特点,无法直接将现有的数值型数据聚类算法应用到符号数据。因此,符号数据的聚类算法研究成为一个非常重要的研究内容,对完善数据挖掘理论以及拓展聚类的应用都有着重要的意义。本文对符号数据聚类分析中的若干问题进行了研究,包括挖掘类属型数据间非线性关系的核子空间聚类算法、符号序列数据的聚类算法以及针对符号序列中噪声数据和类不平衡数据(非均匀数据)的鲁棒概率框架。本文的主要研究工作有:1.针对目前类属型数据聚类算法大多基于特征间相互独立的假设,未考虑属性间存在的线性或非线性相关性关系,提出了类属型数据核子空间聚类算法。该算法引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量;基于该度量推导了类属型数据核子空间聚类目标函数,提出一种高效求解该目标函数的优化方法并定义了一种类属型数据核子空间聚类算法,该算法不仅在非线性空间中考虑了属性间的关系,还在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择。最后,定义了一个新的聚类有效性指标以评价类属型数据聚类结果的质量。在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系并有效提高了聚类结果的质量。2.针对符号序列数据,提出一种自表达模型。基于该模型将符号序列转换成了等长的向量,定义了符号序列间的相似性度量。实验结果表明,提出的算法较目前主流的算法不仅在聚类精度上有一定提高,还在一定程度上降低了噪声数据对于聚类结果的影响。3.提出了 一种符号序列数据鲁棒聚类的概率框架。该框架由自表达模型以及高斯混合分布模型级联构成,不仅降低了噪声数据对聚类结果的干扰,还能够对类不平衡的数据进行聚类分析。在此基础上,将符号序列的鲁棒聚类问题转换为软子空间聚类问题。基于该框架,我们定义了 k-means型的聚类目标函数,并提出了符号序列的鲁棒聚类算法。实验结果表明该算法在实际数据集上较目前的聚类方法有明显的优势。上述工作丰富了符号数据聚类分析的研究,其中,第一个工作在医疗诊断、动植物分析等领域得到了进一步的延申;后两个工作应用于语音识别、生物信息以及文本挖掘等相关领域。因此,本文工作对实际应用的数据挖掘提供了新的技术支撑,在数据挖掘和知识发现等领域有着较大的应用价值。
其他文献
当今时代核能已成为能源的重要组成部分,核裂变是核能利用的一种重要方式,准确评价裂变过程中的裂变产物产额对衰变热的计算,核反应堆设计与运行以及乏燃料和废物处理等方面
森林具有复杂的结构和功能,森林功能的发挥很大程度上取决于结构是否合理,林分结构影响林木个体生长空间,优化林分结构是培育多功能森林的重要途径。大量科学研究表明,林分多
树枝状管式气体分布器是催化裂化装置再生器普遍使用的一种气体分布器。但这种分布器在实际运行过程中存在着气体分布不均匀、管子和喷嘴磨损、催化剂流化质量下降、催化剂再
本文研究了不同元件在四种系统里的最优分配,即串联系统、并联系统、串并联系统和并串联系统。我们研究由n个相依组件组成的系统.这些组件来自由m个不同子总体组成的异元总体。在实际中,每个子总体中的组件是相依的,而子总体之间是相互独立的。本文在我们用阿基米德copula来刻画每个子总体内部的相依性。在此情形下,我们将得到以下结论。在第二章中,一个串联系统的最优(极大)可靠性是通过从一个相依的子总体中提取所
本论文以金融业态理论为基础,首先对金融业态的概念及特征、金融业态基础理论进行阐述,在此基础上研究了我国金融业态的格局演化历程、发展现状及实践价值;再结合重庆市江北嘴中央商务区金融业态的发展现状,通过对比结合其它典型中央商务区尤其是国内典型中央商务区的金融业态发展现状,发现并分析江北嘴中央商务区的金融业态发展问题及问题产生的原因、影响;最后根据江北嘴中央商务区自身特点和发展机遇,提出解决江北嘴中央商
本文在一般环(未必有单位)中引入了广义clean指数的概念,给出了广义clean指数为1,2,3的环的刻画.引入了一般弱clean环的概念,得到了一般弱clean环的基本性质;将弱clean指数推广至一般环中.首先,引入了广义clean指数(cg)的概念,说明了广义clean指数是clean指数(in)的真推广.证明了对含幺环R,in(R)=cg(R);对一般环I,cg(I)=1当且仅当I是abe
目的:通过观察鱼藤酮诱导的PD胃肠功能障碍模型大鼠脑、胃、结肠组织中SP含量及胃、结肠组织中cajal间质细胞(interstitial cellsof Cajal,ICC)含量的变化,来探究“调神畅情
王官屯油田官997断块油藏经过30多年的注水开发,目前已进入开发中后期,随着含水率的不断升高,由于储层非均质性强,从而严重影响油田注水开发效果,同时,随着注采井网的不断完
水资源短缺是黄土丘陵区森林生态系统功能稳定性的主要限制因子,而树木作为森林的主体,其蒸腾与蒸散在森林水分循环中占比较大。本研究采用Granier热扩散探针和DC3型高分辨率
近年来,单层网壳结构由于其具有造型优美,自重较轻及良好的使用性能等优点,其被应用在许多新型的工程结构中。三向网格型网壳在被广泛使用于实际工程中,但关于其诸多性能的研