改进的K-medoids聚类算法和基于谱聚类的特征选择算法研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:seaboy258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的来临使得数据挖掘和机器学习领域面临着重要挑战,而聚类和分类正是这个领域着力研究的问题。聚类分析能够使人们发现数据中隐含的模式与规律。划分式聚类算法在实际应用中非常普遍,但不能识别任意形状和密度的簇且不能确定合适的类簇数,K-medoids聚类方法正是典型的划分式聚类算法之一。图聚类算法也是一种传统的聚类方法,不仅能够收敛到全局最优,还可以在不同形状的样本空间上聚类。特征选择是分类任务广泛应用于医疗、图像和文本等领域的重要方法。然而此类数据都具有高维度的特征并且特征中多含有冗余的或者与类标无关的特征。尤其对于高维度、高冗余、高噪声的基因表达数据,如何剔除冗余特征,降低特征维度,从而提高分类质量,获取有效特征子集十分重要。本文就快速K-medoids算法需要提前给定类簇个数、不能识别任意形状类簇的问题,谱聚类算法中核函数参数选择的问题,以及谱特征选择算法特征重要性度量的三方面问题展开研究,主要工作及创新点分别如下:1.本文提出了一种基于测地距离和新指标Fr 的快速K-medoids聚类算法:一,本文通过改进F统计量定义一个新的统计量Fr,作为聚类内部评价指标和迭代停止准则,自动确定数据集的类簇数;二,本文采用样本间测地距离MST_path而非欧氏距离,实现任意分布形状数据上的聚类。常用UCI数据集和人工数据集的实验显示,本文采用相似性度量方法MST_path和新聚类指标Fr,不但能够自动发现数据集的类簇数,还可以发现任意形状的簇,且对噪音数据具有良好鲁棒性。2.Self-Tuning谱聚类算法发现NJW算法中参数是全局的,聚类结果对参数很敏感,进而提出一种局部尺度参数,定义为样本与其第p个近邻的距离。然而,这一定程度上会受到离群点的影响,因此本文定义样本局部标准差σstai,表示为样本与前p个近邻的距离的标准差,有效避免离群点的影响。算法在几个常用UCI数据集、人工数据集和模拟噪声数据集上,使用ACC、AMI和ARI三个指标进行测试,Self-Tuning算法和SCSD算法整体聚类性能优于NJW算法;在近邻个数参数一致的情况下,大部分实验中本文算法的聚类性能优于Self-Tuning算法;SCSD算法在几个噪声数据集上的性能均高于其他两个算法。3.将SCSD谱聚类方法应用到特征选择方法中,提出了新的谱特征选择算法FSSC。将数据矩阵转置,计算特征局部标准差,记作σfs_i;并分别采用熵排序和余弦相似性排序作为度量特征重要性的方法,从而选择出一个最合理的特征子集。实验通过支持向量机分类正确率等方法评价特征子集实现特征选择的分类性能,并使用7个基因数据集进行实验分析,与多类簇特征选择方法MCFS和拉普拉斯分值特征选择方法Laplacian进行比较,表明新提出的谱特征选择算法性能良好。
其他文献
由于满足上网便利性和高带宽需求,无线局域网(WLAN)已经成为人们最为重要的上网方式之一,然而无线局域网的安全问题并没有引起大家的重视。自从中央网络安全和信息化领导小组
第一部分:异喹啉酮类mPGES-1抑制剂的设计、合成及生物活性评价微粒体前列腺素合成酶-1(mPGES-1)在炎症通路中是处于比较下游的酶,在生理状态下,它与mPGES-2、cPGES共同催化
行人重识别(Person re-identification,Re-ID)作为一种重要智能视频分析技术,在智能安防、案件侦破、遗失查询、智能交互等领域应用广泛,是公共安全管理的重要手段,已成为目前众多科研机构研究的热点。但由于实际场景中光照、遮挡、分辨率、背景、人体姿态各异,加之目前数据集的不充足,使得行人重识别任务仍然面临许多困难和挑战。本文研究重点是复杂环境下的鲁棒性的行人特征提取,以及提高数
2013年,在监管层鼓励金融创新和公募基金私募化的背景下,股票开放式基金浮动管理费模式破冰。随后,“支点式浮动管理费率”以及“按新高法则提取业绩报酬”等创新型公募基金
学位
HS眼科集团成立于1995年,是目前中国唯一集医疗、教育、产业、学术、科研以及公益于一体的眼科集团。大连HS眼科分院成立于2002年,由于HS眼科医院在医疗技术上有着明显的优势,白内障诊疗、近视激光手术、眼底病诊疗等关键业务在大连地区市场占有率较高。但是目前医院却未能及时将其拥有的知识资源系统整理,知识转移和知识共享工作缺乏系统规划而导致知识分布不合理,下属分院知识转移不系统、效率低下,关键岗位人
随着全球化进程的推进,英语广泛适用于不同母语者之间的交际,已经成为国际通用语。从国际通用语这一视角来看,英语并不只与一种特定的文化捆绑在一起,它承载的不仅仅是英美国家的文化,还包括世界各国的文化。因此,对于每一个人来说,和不同文化的人进行跨文化交际已经成为一项基本技能。最新颁布的《普通高中英语课程标准(2017版)》明确提出了新的文化知识观,更加强调通过英语课程的学习,使学生能够获得文化知识,理解
自适应巡航控制ACC(Adaptive Cruise Control,ACC)是自动驾驶技术中目前应用最广泛的一类重要的纵向跟驰技术,能够比人类做出更精确、更及时的判断,但由于无法获得交叉口信号
现今,数字通信系统应用广泛,通过有线、微波无线电、光纤以及卫星等一系列的通信媒介,传输大量日常所需的信息。数字信号传输过程会受到噪声、干扰以及衰减的影响,从而引起信
本篇论文的模拟口译实践是一次交替传译,材料是习近平主席在2016年网络安全和信息化工作座谈会上的讲话。通过本次模拟口译,笔者总结了一些问题,比如汉语长难句的口译,汉语成