无监督与半监督降维相关问题研究

来源 :南京航空航天大学 | 被引量 : 9次 | 上传用户：gexuefeng1

【摘要】

：

随着科学技术的发展,模式识别在越来越多的社会活动中扮演重要角色,常见的有文本数据识别、人脸图像识别、遥感图像识别、生物信息识别等。与此同时,高维数据的出现也给模式

【作者】

：

王寅同

【出处】

：

南京航空航天大学

【发表日期】

：

2016年01期

【关键词】

：

降维特征提取特征选择 Markov blanket 特征相关性互信息相关度增益

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的发展,模式识别在越来越多的社会活动中扮演重要角色,常见的有文本数据识别、人脸图像识别、遥感图像识别、生物信息识别等。与此同时,高维数据的出现也给模式识别带来巨大的挑战,主要体现在计算复杂度高并且识别结果不令人满意。降维作为高维数据处理的关键研究问题之一,将原始高维数据由高维空间以某种方式映射到低维空间上的过程,能够抽取得到对数据识别有意义的重要特征,移除特征集中不相关和冗余的特征。尽管降维的研究已取得丰富的成果,但是当前许多实际问题中的数据呈现高维度、大数据量、类别标记缺失等特点,降维技术仍需通过对现有方法进行完善或探索新的理论方法以获得进一步的发展。本文主要贡献和研究内容包括如下四个方面:(1)针对类别标记不完整的数据集上的特征提取问题,如类别标记信息的利用、多模态分布的相似数据距离度量,提出重构概率类的半监督局部线性判别分析。该方法中的重构概率类赋予每一个无类别标记数据所属类别的概率,这一类别由该数据的最邻近有类别标记数据确定,进而实现降维过程中有标记数据和无标记数据的充分融合。类间散度矩阵和类内散度矩阵计算中引入差异化的数据对象距离的权重,使得多模态分布的数据由高维空间映射到低维空间时,类间数据对象尽可能地分离且类内邻近数据对象尽可能地紧凑。(2)针对无类别标记数据上的特征之间相关性研究,提出基于信息理论的无监督相关度增益度量,能够有效地度量无类别标记数据的特征重要性和特征之间相关性,避免无类别标记数据特征选择过程中多次迭代地执行学习算法以评估特征子集的重要性。无类别标记数据的特征重要性定义为对应特征与所有特征的平均互信息,并由推论得出在朴素贝叶斯条件下对应特征的重要性可以最大化地逼近真实数据特征与潜在类别之间的相关性。(3)为了解决目前无监督特征选择方法中缺少有效的无监督特征相关性度量、执行效率偏低和易陷入局部最优解等问题,提出两种无监督特征选择方法,包括基于相关度增益和Markov blanket聚类的特征选择和基于相关度增益和粒子群优化的特征选择。前者以特征为节点、相关度增益为权重边构建有向无环图,由Markov blanket划分有向无环图实现冗余特征的聚类,从每个特征簇中选择一个代表特征组成所选的特征子集。后者是在前者基础上提出的一种粒子群优化的启发式特征选择方法,粒子的随机运动和多粒子的相互作用能够避免特征选择过早地陷入局部最优解,进而以更大概率获得全局最优解。(4)实际应用中有类别标记数据的获取难度远大于无类别标记数据,在许多数据集中,只有少量的数据对象具有类别标记信息。采用有监督或无监督特征选择所取得的特征子集仅利用了数据集的部分信息,而舍去剩余的无类别标记数据或已有类别标记信息。针对这一问题,提出基于信息理论和相关度增益的半监督代表特征选择,通过一个平衡因子将有类别标记数据特征的互信息和无类别标记数据特征的相关度增益紧密地结合在一起,充分利用了整个数据集的信息来度量特征重要性和特征之间相关性。

其他文献

贵州石头寨二叠系古油藏油气成藏期分析:流体包裹体与Sm-Nd同位素制约

贵州石头寨二叠系古油藏是滇黔桂地区众多上古生界生物礁型古油藏的典型代表。该古油藏发育了三期溶孔、裂缝充填方解石,其中含丰富的油气包裹体,三期油气包裹体组合依次为:

期刊

流体包裹体Sm-Nd同位素成藏时代古油藏石头寨

基于维数约简的无监督聚类算法研究

近年来,随着数据获取能力的不断提高和计算机的飞速发展,人们获得的数据信息越来越多,数据维数越来越高,如何寻找这些海量高维数据信息中潜在的规律,更好地为人类服务,是目前

学位

聚类分析维数约简矩阵分解l21范数特征选择特征抽取子空间聚类低秩表示

新型公钥加密方案及应用研究

构造安全的新型加密方案和利用加密方案设计高效的安全协议是网络空间信息安全研究的主要热点。本文的工作主要体现在两个方面:(1)具有新性能公钥加密方案的构造和安全性分析

学位

编码随机化选择明文攻击自适应性选择密文攻击同态加密安全多方计算签密标准模型安全比较云计算

城市中小学生2008年恒龋患病现状分析

目的：分析山西省阳泉市2008年中小学生恒龋流行现状和龋患程度，为龋齿防治工作提供依据。方法：收集市直管中小学校2008年的健康监测资料，分析恒龋患病情况。结果：恒龋患率为10．11％，龋

期刊

龋齿患病率学生

面向数据发布的数据匿名技术研究

数据匿名是一种基于模糊和隐藏的隐私保护技术。现有的数据匿名技术主要通过泛化、抑制等方式实现数据的匿名化,降低攻击者获取用户身份和敏感信息的概率,保护用户隐私,同时

学位

数据匿名数据隐私数据发布缺失数据高维数据复杂关系数据

吉西他滨在恶性肿瘤治疗中的免疫调节作用

化疗药物在发挥抗肿瘤作用的同时，也会对包括免疫细胞在内的正常细胞产生杀伤作用，从而抑制机体的免疫功能。然而近年来的研究发现，包括吉西他滨在内的部分化疗药物可通过不同途

期刊

免疫抑制剂免疫原性吉西他滨肿瘤

基于表示学习的情感分析关键技术研究

文本情感分析技术可以挖掘互联网文本中蕴含的情感信息,使我们高效的了解人们针对某实体的观点,并根据这些观点做出决策。然而当今互联网应用中的文本特点却对传统情感分析技

学位

情感分析表示学习词向量深度神经网络

77例老年脑梗死合并肺部感染的护理

目的：探讨老年脑梗死并发肺部感染有效的护理方法。方法：采取加强病室空气的管理、强化基础护理、合理使用抗菌药物、开展心理护理等措施。结果：减少并发症的发生,促进肺部感染

期刊

脑梗死肺部感染护理

局部晚期宫颈癌的放射治疗进展

宫颈癌是女性最常见的生殖系统恶性肿瘤，其发病率和病死率在女性恶性肿瘤中居第二位，仅次于乳腺癌。据2013年统计，全球宫颈癌标准化年龄的发病率和病死率逐年提高，成为全球范围内

期刊

宫颈肿瘤放射治疗进展

法国作品在竖琴上的演奏特点

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

竖琴法国音乐作品技法

无监督与半监督降维相关问题研究

与本文相关的学术论文