面向图数据分类的正例未标注学习算法研究及系统实现

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:gra_summer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图数据在日常生活以及科学领域广泛存在,图数据分类一直是数据挖掘领域的一个热点问题。图数据分类任务主要分为图节点(Node-level)分类任务和整图(Graphlevel)分类任务。传统的图数据分类算法在训练模型时,要求用户必须提供包含所有类别的已标注图节点集或整图集。然而,在许多实际应用中,用户往往仅可提供少量的、感兴趣的样本作为正例样本,但期望识别出感兴趣的其它样本。该类问题可建模为图数据分类的正例未标注学习(Positive Unlabeled Learning,PU学习)问题。本文针对图节点分类和整图分类的PU学习问题,提出了两种PU学习算法,并利用所提出的图节点分类的PU学习算法设计实现农业信息推荐原型系统。主要研究内容及成果如下:(1)研究图节点分类的PU学习问题。针对现有图节点分类的PU学习方法仅提取节点表征信息来推断节点类别的不足,提出了一种基于协作推断的正例未标注学习算法(Positive Unlabeled Learning Based on Collective Inference,PUCI),旨在从仅含正例和未标注节点中获取节点表征、局部节点标签依赖关系、正例节点关联信息,协作推断未知节点类别。首先,通过基于相似性个性化网页排位算法计算正例关联度。其次,利用图神经网络分别构建局部分类器和关系分类器并通过EM算法进行迭代优化。其中局部分类器利用节点表征和正例关联信息预测未知节点类别,关系分类器则利用节点标签依赖关系和正例关联信息,迭代更新节点标签。最后,通过混合非负无偏风险评估函数来进行正例未标注学习。在真实数据集Cora、Citeseer和Pubmed上的实验表明,相比于目前已有的图节点分类PU学习算法LSDAN,PUCI算法分类性能指标F1值在不同正例标注比下平均提高了5.31%。实验结果表明,基于协作推断的正例未标注学习算法可以有效地关联节点之间的信息,从而提高分类效果。(2)研究整图分类的PU学习问题。针对现有整图分类的PU学习方法仅利用图结构信息来识别可靠负例的不足,提出了一种基于多信息融合的正例未标注学习算法(Positive Unlabeled Learning Based on Multi-Information Fusion,GMI-Learning),旨在利用图的结构信息、边信息以及节点信息来识别可靠负例,以推断未知整图类别。首先,利用少量已标注图的结构信息、边信息和节点信息计算出未标注图与已知正例图的相似性指数。其次,对相似性指数进行排名获取可靠的负例图。通过获取的可靠负例图,将PU问题转化为二分类问题。最后,利用图卷积和图池化技术来获得整图表示,以多层感知机层作为分类器,推断未知图类别。在真实数据集MUTAG、DHFR、PTC_FM、PTC_MM、PTC_FR和PTC_MR上的实验表明,相比于目前已有的整图分类PU学习算法GPU-Learning,GMI-Learning算法分类性指标F1值在不同正例标注比下平均提高了4.86%。实验结果表明,基于多信息融合的正例未标注学习算法有更强的分类性能。(3)农业信息推荐原型系统设计与实现。利用农业信息内容提取特征信息构建农业信息特征向量,农业信息之间链接关系构建图模型。用户将感兴趣的农业信息添加至收藏夹,系统需要根据用户提供的收藏页,推荐其它感兴趣的农业信息。本文利用PUCI算法构建农业信息推荐模型,用户收藏夹可以视为正例节点,大量的其他农业信息则为未标注节点,并依托该模型,构建农业信息推荐原型系统。
其他文献
阐述产教融合、技能大赛、1+X证书与教学相结合的课堂教学方法,将大赛和1+X证书的成果转化到驱动式教学过程中,以能力和实操为导向,培养面向社会需求的专业技能型人才。
期刊
温州市苍南县在深化养殖用海管理、解决用海矛盾纠纷、推动紫菜产业转型等方面取得了一定的成果,但也不同程度存在一些仍未解决的问题和难点。本课题采用理论与实践研究相结合的方式,前期先对温州市苍南县养殖用海管理的实施现状进行调研,再根据实际情况,设立管理机制、利益保障、宣传力度、执法监管、技术推广5个准则层、14个目标层。通过层次分析法、模糊综合评价法、问卷调查法等方法,首先让16个专家填写指标权重调查表
学位
随着社会的进步,经济的迅速发展,物联网技术的应用越来越受到人们的关注。但是高职物联网专业的学生学习基础薄弱、院校课程结构不够合理以及实践教学匮乏等问题,对人才的输出造成了不利的影响。文章通过对物联网技术专业对应“1+x”证书课程体系研究,介绍了高职物联网技术专业构建“1+X”证书课题体系的背景、课程体系及构建的新思路——学校与企业共建“1+X”证书课程体系方面进行研究,将理论课程项目实践化,优化课
期刊
奶山羊的运动行为是其身体健康的重要体现,利用智能可穿戴设备识别奶山羊的运动行为对于奶山羊的智慧养殖具有重要意义。针对当前奶山羊行为识别过程中存在可穿戴设备种类少、研究对象差异大、行为识别类别少和行为识别准确率不高等问题,本文利用了多传感器可穿戴设备、基于改进生成对抗网络的奶山羊行为传感器数据扩充算法和基于双注意力时间卷积网络的奶山羊行为识别算法,实现了奶山羊运动行为的准确识别。本文主要内容研究如下
学位
进入老龄化社会后,我国人口逐步显现出以下五大特征:即基数大、增速快、空巢化、高龄化、失能化等,另外,“未富先老”的国情、“家庭小型化”等各种原因使得我国养老问题更加严峻。根据人口统计资料显示,永嘉县已步入老龄社会。永嘉县近几年一直在大力推进养老服务设施的建设,并取得了长足的进步,但与老年人对养老需要相比仍有很大的差距。本文旨在以公共产品理论、协同治理理论为理论基础,选择永嘉县作为研究区域,以永嘉县
学位
阐述智能终端设备的应用与传感器、数字电路设计、微型控制器等电子技术的发展,探讨电子技术在智能终端设备中的关键技术应用。
期刊
2018年国务院部署在全国推开“证照分离”改革,着力破解“准入不准营”难题,这是深化“放管服”改革的重要内容,是对企业主体责任的一项考验,更是倒逼政府管理方式进行改革的有利时机。随着准入条件的放宽,新政红利释放激发市场活力,检验检测机构是否合规运营关联着各地区产业链发展、高技术服务业发展、经济和社会发展。“证照分离”改革背景下,对基层市场监管部门的治理提出了新要求,履职过程中遇到哪些问题,检验检测
学位
统筹城乡发展、加快城市化进程,推进社区和社区服务体系的建设是当前人民群众的迫切需求,也是党和政府关注的重点。为切实加强城乡基层治理和新农村建设,温州市结合乡镇撤扩并改革,将合并进的小乡镇改制为片区,在乡镇以及村居间设立了片区这一中间层级,新增片区下辖的村居不变,但是行政级别降低,从乡科级单位转变为正股级单位,以“镇-片区-村”为组织架构的治理模式,能有效解决乡镇合并后管理幅度过大的问题,从而集中整
学位
番茄是世界上种植最广泛的蔬菜之一,在我国蔬菜供应中起着关键作用。番茄生长要求肥力供给同时满足高消耗和高补充两个条件,实际生产过程中下的施肥存在盲目性,极易出现土壤障碍和缺素症状,若发现不及时会对生产造成巨大损失。本文针对番茄缺素叶片图像特征变化小、难以捕捉细节特征等问题,基于RGB图像数据和高光谱图像数据分别从番茄叶片显症后和未显症前设计番茄叶片缺素图像识别模型,为实现番茄图片缺素的高精度智能识别
学位
癌症严重危害人类健康,如何提高癌症病人的治愈率和生存率是癌症研究和治疗领域的一大难题。医学研究发现,癌症并不是由单个基因异常引起,而是由多个致病基因协同作用导致,对癌症产生、发展和恶化有重大影响的基因集称为癌症功能模块。检测癌症功能模块不仅可以深层次地研究癌症的发病机理和演化过程,还可以指导临床上癌症的诊断和治疗。因此,在海量的数据中准确有效地检测癌症功能模块成为癌症研究领域的一大热点。本研究用复
学位