基于图的半监督分类算法研究

来源 :陕西师范大学 | 被引量 : 2次 | 上传用户：youpi100

【摘要】

：

随着网络和信息技术的快速发展,数据的获取和存储能力极大提高,面对海量的数据,传统的以标记数据为基础的机器学习模型已经远远不能满足数据分析和处理的要求,半监督学习只需

【作者】

：

马君亮

【出处】

：

陕西师范大学

【发表日期】

：

2019年01期

【关键词】

：

半监督分类概率近邻矩阵图结构相似性动态构图标签传播锚点

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络和信息技术的快速发展,数据的获取和存储能力极大提高,面对海量的数据,传统的以标记数据为基础的机器学习模型已经远远不能满足数据分析和处理的要求,半监督学习只需少量的已标记数据,同时利用大量的未标记数据进行学习获得较好的分类效果,使机器学习模型从体量巨大、结构繁多的数据中挖掘出潜在的规律。半监督学习模型解决了监督学习模型泛化能力不强和无监督学习模型不精确等问题,成为近年来机器学习领域值得研究的方向之一。基于图的半监督分类是半监督学习中一个重要的分支,充分利用了数据之间的关系,具有坚实的理论基础和明确的目标函数,算法性能良好且易于求解。它主要包含两个步骤:(1)使用已标记和未标记样本构造能够表达数据内在结构的图,(2)利用图推导算法对未标记样本进行标记推断。本文研究的重点是更加有效地探索新的图构造方式和扩展的图推导算法,在此基础上提出新的基于图的半监督分类方法。与此同时,研究大规模数据分类问题,设计适用于大规模数据的基于图的半监督学习方法,扩展基于图的半监督分类算法的应用领域。主要工作概括如下:1.提出了基于概率近邻的图半监督分类算法。该算法对结点之间成为近邻的概率建模,基于l2范数构造目标函数,使得满足局部聚类约束的结点成为近邻的概率增大。结合分类任务特性求解目标函数得到优化的概率近邻矩阵,将该矩阵直接作为后续标签传播的概率转移矩阵。该算法对概率转移矩阵计算的步骤进行了简化,增强了图构造和图推导的关联性,扩大了转移概率矩阵的值的差异性,使该矩阵更加适合后续的分类任务。同时,实现了在给定预设近邻数的前提下,自适应确定近邻个数,通过理论分析和相关实验,证明了该算法具有较低的时间复杂度,能够更好地适应分类任务。2.提出了基于动态构图的半监督分类算法。实现一种无参的选边算法,该算法能够捕捉数据的分布,在数据稠密区域连接更多的边,在数据稀疏区域连接较少的边。在图上边权值计算阶段,综合考虑了数据之间的距离度量和数据的分布,针对图中点的度数差异较大的情况,提出自适应度加权算法。通过将该构图算法和经典的构图算法进行对比实验,在合成方数据集和图像数据集中分类实验证明了提出的方法的有效性。3.提出了结合结构相似性进行构图的方法及一种扩展的标签传播算法,基于此提出融合局部和全局特征的图半监督分类方法。针对现有的图的构造只利用了样本的自身特征,未考虑图的结构相关性这一问题,本文提出了基于链路预测算法的图构造方法,该方法分别采用局部和全局链路预测算法刻画图的局部和全局结构特征,将其融合优化图结构。针对标签传播算法中未反映已标记样本之间的类别信息相关性这一问题,提出了扩展的标签传播算法。实验结果表明了该图半监督分类方法提高了分类的准确率,并通过理论分析和实验结果分析和验证了算法的时间复杂度。4.提出了增强的锚点图半监督分类方法。基于锚点的构图算法扩展了传统基于图的半监督分类方法,扩大了数据处理规模。该算法框架的核心是要构建一个表达二部图关系的Z矩阵,该矩阵的定义直接影响分类结果。本文提出了基于锚点的概率近邻算法对Z矩阵进行构建。与此同时,针对锚点的选择问题,根据不同的应用场景提出了锚点的选取准则,在像素级分类和图像集分类两种不同的应用场景中,设计SLIC和K-Means两种算法选择锚点。该算法框架具有较低的时间复杂度,在大规模像素级分类问题和图像级分类问题两种应用背景下进行实验,证明了该算法框架的有效性和高效性。

其他文献

有限测度空间（Ω，F，μ）上测度的性质

主要介绍了有限测度空间（Ω，F，μ）的定义，以及定义于其上的一些测度的性质，并利用测度论的方法推导了一些性质。

期刊

测度有限测度空间从上连续从下连续measurefinite measure spacecontinuous

注射乙肝疫苗前要查“两对半”

陈大夫：前几天，单位的同事得了乙肝，我想去注射乙肝疫苗，请问注射乙肝疫苗前需要哪些事项？雷女士：在接种乙肝疫苗之前，应先检查乙肝病毒表面抗原、表面抗体、e抗原、e抗体及核心抗体

期刊

乙肝疫苗“两对半”注射乙肝病毒表面抗原乙肝两对半表面抗体核心抗体检测结果

信息时代的新农村需要什么

在北京某报工作的熊昕每天都要上网浏览诸多新闻信息，关注行业动态，通过MSN等与线索提供者、跑口联系对象随时联系，手机更被要求24小时不得关机，周末常参与某论坛组织的户外活动，

期刊

信息时代新农村线索提供者新闻信息行业动态户外活动网上购物电子银行

一类离散有毒素和捕获的捕食系统动力学行为

研究一类具有离散时间、外界捕获、毒素作用的捕食-食饵系统,通过运用比较引理和构造恰当的Lyapunov函数,证明了系统的持久性和全局吸引性,最后,我们给出了捕食者、食饵种群

期刊

毒素作用捕食-食饵系统全局吸引持久性predator-prey model toxicity global attractivity permanenc

两岸学者共商水安全问题

据环境部门监测，中国七大水系中一半以上河段水质受到污染，全国90％的城市水域污染严重，50％的城镇水源不符合饮用水标准，40％的水源已不能饮用。中国饮用水安全问题十分严峻。

期刊

安全问题饮用水标准学者两岸水域污染中国水源水质

探访台湾荣乡坪林

到台湾旅游，除了阿里山、日月潭、台北故宫这些耳熟能详的景点外，还有很多去处，各具特色的老街，以地方名特产品为招牌的自然和人文景观，精致又耐看。

期刊

台湾地区台北故宫人文景观名特产品阿里山日月潭旅游老街

绘画中的开国英雄

在为建立新中国所进行的斗争中，涌现出无数的开国英雄。他们在美术作品中以各种形式出现，影响着一代又一代中国人。　　　　毛泽东的样板画　　　　今年6月在广州春季拍卖会上，中国美术家协会主席、油画家靳尚谊的作品《毛主席全身像》，以2016万元成交，震撼全场。这是历年来表现开国英雄题材作品中拍卖成交价最高的一件。这件作品创作于1966年，尺寸为262cm×137cm，是画家的代表作。作品中人物的刻画充分体

期刊

英雄绘画美术作品新中国中国人

五类口服降糖药你选对了吗

糖尿病已成为人类第五大死因，是危害性较大的一类疾病。目前，临床上主要通过糖尿病的知识教育、饮食治疗、运动疗法、口服降糖药、注射胰岛素等方法对糖尿病进行预防、治疗和控

期刊

口服降糖药饮食治疗注射胰岛素糖尿病知识教育运动疗法

北京美食任你吃

中国人崇拜的领袖毛泽东说：“不到长城非好汉”，北京人在后面添上一句，变成了“不到长城非好汉，不吃烤鸭真遗憾”。到过北京的游客都知道，烤鸭是北京最受推崇的“大餐”。　　　　吃烤鸭有讲究　　　　吃北京烤鸭，有很多讲究。比如季节，在冬、春、秋三季，吃烤鸭味道最佳，因为这时的鸭肉最为肥嫩。　　　　比如片鸭的方法，烤鸭烤好，应该趁热先片下鸭皮吃，酥脆香美；然后再片鸭肉吃，而且片片有皮带肉，薄而不碎。有业内人

期刊

北京美食毛泽东中国人长城烤鸭

三步松解法治疗腰椎间盘突出症

目的:观察小针刀、骶管注射、腰椎斜扳三步松解法治疗腰椎间盘突出症的效果。方法应用小针刀、骶管注射、腰椎斜扳三步松解法治疗腰椎间盘突出症36例。结果36例患者经本法治

期刊

三步松解法腰椎间盘突出症

基于图的半监督分类算法研究

与本文相关的学术论文