基于自我表述的学习方法的研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:frjzj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高维数据中,许多样本存在冗余或者不相关的特征,冗余特征的存在会降低算法的效率,不相关特征的存在会对学习算法的效果造成一定的影响。特征选择能给算法带来很多好处,如降低计算代价、提高效率、增强泛化能力等。而在数据样本不断增大的同时,数据的标注结构复杂程度也在不断增大。虽然多标记学习现在已经能够处理大量的标记多义性问题,但现实世界中还有着许多需要反映每个标记对实例准确描述程度的数据,即标记分布型数据。针对以上的数据问题,本文将自我表述思想应用到学习过程中,分别提出基于自我表述的两种学习方法:  (1)针对存在大量冗余特征和不相关特征的无标记数据,提出基于自我表述依赖度量的无监督特征选择方法(DMSR)。该算法首先定义特征的性能依赖于原始数据的自我表述依赖度量原则,即投影后的低维空间数据越依赖于原始数据,则该低维空间越好。然后通过依赖最大化,使投影到低维空间后的数据尽可能保持原始数据的特征信息,据此对原始数据进行降维。获得可靠的低维数据后,引入稀疏表示技术进行特征选择。最后,在4个公开的数据集上进行实验,并与3种已有的无监督特征选择算法进行比较,实验结果表明提出的DMSR特征选择方法是有效的。  (2)针对反映实例描述程度的标记分布数据,提出基于正则化样本自我表述的标记分布学习方法(RS SR-LDL)。首先从构建新的标记分布的思想出发,利用样本特征和变换矩阵使得每一个标记分布能够表示为相关样本特征的一个线性组合。然后通过重新构建的标记分布与原始标记分布之间的残差函数建立模型,应用最小二乘法优化模型,同时分别引入L2-范数和L2,1-范数正则化项,设计算法进行求解。最后在12个公开的数据集上进行实验,并与3种已有的标记分布学习算法在五种评价指标上进行比较,实验结果表明提出的RSSR-LDL学习方法是有效的。
其他文献
近几年来,成都市加快推进现代化、国际化步伐,推动现代服务业快速发展。在积极打造区域性国际贸易中心城市,实现成都市现代商贸服务业提档升级的过程中,锦江区现代商贸产业发
Brunn-Minkowski理论是凸体几何的中心,而Brunn-Minkowski不等式是经典Brunn-Minkowski理论的基石。当引进Lp加法和数乘后,形成了LpBrunn-Minkowski理论。随着近二十年凸体几何
本文对Gregori和Veeramani(Fuzzy Sets and Systems,1994,64(3):395-399)意义下的模糊度量空间(以下简称为GV模糊度量空间)的若干方面进行了比较深入的研究,得到了一些良好的研究成果,对本方向的研究起到了一定的推动作用。主要工作包括:一、研究了GV模糊度量空间中子集的有界性,给出了模糊强有界和模糊弱有界的定义,得到了模糊强有界、模糊有界、模糊半有界
学位
本文提出了一种在可加模型中基于数据的变量选择方法,该方法是通过样条估计来实现的。回归模型的可加性能够很好地克服“维数祸根”的问题,而样条估计可以对可加模型中的每个
在过去的一段时间内,浅水波模型Camassa-Holm(简称CH)方程引起了研究者的极大兴趣,各种不同的方法都被用来研究此模型,包括B(a)cklund变换,反散射方法,倒数变换,双线性理论等.各种不
PVDF聚合物热释电薄膜是一种新的激光与红外辐射探测器材料,它比无机薄膜更易于与硅微加工工艺为基础的硅读出电路兼容.本文用旋涂法制备了一种聚合物热释电薄膜,对其进行了
以甘油经微生物克雷伯氏杆菌歧化为1,3-丙二醇(1,3-PD)为背景,考虑到微生物细胞内物质浓度无法测量以及代谢物质的跨膜运输机理尚不清楚等问题,研究了一类用于辨识甘油跨膜路径的14维混杂动力系统,其中包括该系统的性质、参数灵敏度分析及其辨识等问题。该动力系统不仅包括了甘油歧化过程的还原路径动力学,而且还考虑了该路径上中间产物3-羟基丙醛(3-HPA)对dha调节子基因表达以及对两种关键酶——甘油
DNA微阵列是一项新技术,它随着“人类基因组计划”的发展而发展起来。高密度的DNA微阵列包含成千上万个cDNA片段,可被用于高通量的生物学检测,其数据处理和信息挖掘等功能研究是
中共中央党校妇女研究中心专家解读为什么要把男女平等提到国策高度十届全国人大常委会第十七次会议通过了妇女权益保障法修正案。其中明确规定:“实行男女平等是国家的基本
本文通过对荣华二采区10