基于异质信息网络的众包标注优化方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:yfg1243
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着众包系统的发展以及众包概念的普及,许多研究领域所需的大量标记数据离不开众包应用的发展,很多无法通过机器智能完成的任务转而通过外包的方式交由网络在线用户完成。同时,作为一种人工智能的方式参与到了机器计算,众包标注帮助越来越多的基于监督学习的应用程序,以相对低的成本获得大量的标记数据,这加快了数据的更新和模型迭代的速度。然而,标注者的质量无法得到保证,从而使得利用众包标注数据建立的模型面临挑战。因此,如何提高标签的质量具有重要的研究价值。本文从存在的标注问题着手,主要研究内容如下:(1)提出了一种基于异质信息网络的二分类众包标签纠正算法框架Ha CF。从同质性的角度寻找标签、任务之间的语义关系以及定义标注者-任务-标注者之间的元路径。其次通过Hete Sim算法计量出标注者之间的同质性,构建出了星型网络模型。最后基于同质性标签分类器对标签进行纠正。(2)提出了一种基于异质网络的多分类众包标签纠正算法框架Ha MCF。它从多组类别的标签中,重新定义标注者之间的语义关系。其主要考虑到一个标注者在数据集中存在多组有效的标签,通过多组与其高度相似的标注者进行纠正,得到新的数据标签。该方法将二分类任务拓展到了多分类任务,最后通过基于异质信息网络算法的模型对标签数据进行纠正。(3)利用了多组公开的开源数据集对文中提到的模型和其他的基准算法进行对比。通过多组实验结果对比,验证了文中提出的模型的有效性和相对于其他的基准算法的优势。同时也证实了模型适用于其他基准算法。
其他文献
随着科技的发展,人们获取和存储照片、视频的成本变得越来越低,而照片与视频中的人脸信息往往是人们关注的重点之一。因此,探索一种有效且高效地处理海量人脸信息的算法模型具有十分重要的研究价值和意义。人脸聚类是一种挖掘未标记人脸数据的方法。然而,由于人脸数据的规模非常庞大且特征分布十分复杂,导致一些传统聚类分析算法在处理这些真实人脸数据时表现较差。最近的研究通过使用图卷积网络(GCNs,Graph Con
学位
显著目标检测是计算机视觉领域中的一个重要研究课题,旨在研究人类视觉注意机制,利用算法模拟注意机制来检测图像中的显著目标。显著目标检测不仅推动了机器学习和人工智能等领域的理论研究,也成为很多工程应用如无人驾驶、人机交互中重要的解决方案。然而在一些特殊场景下,如前景和背景相似、复杂场景等,从可见光图像中准确地分割出显著目标非常困难,因此当下很多研究者将其他模态的信息引入显著目标检测任务,即多模态显著目
学位
随着越来越多的移动设备走进人们的生活,其产生的数据每年都在急剧地增长。数据聚合作为互联网中处理数据并进行决策性计算一项重要的技术,其通过云服务器对用户数据进行收集和分析,从而做出智能决策。然而,数据的收集可能涉及到用户隐私的问题。虽然目前已提出不少隐私保护数据聚合方案,但大多数方案采用了公钥同态密码机制,此类方案不仅计算成本高,而且资源开销也大。此外,由于移动设备质量的差异,不同用户提供的数据存在
学位
逻辑回归是机器学习中一种基本的二分类方法,在各种现实场景中有着广泛的应用。实践中,为了获得更好的分类效果,通常需要从多个来源收集大量样本来进行模型训练。这不可避免地导致训练样本中所包含的个人隐私信息的泄漏。针对这个问题,越来越多的研究开始致力于设计能够实现隐私保护的逻辑回归训练方案。目前,一些工作给出了适用于不同数据集分布场景的方案,使用这些方案可以在一定程度上保护训练过程中用户数据的隐私性。然而
学位
异常检测旨在研究如何发现数据中不符合预期正常行为的模式和对象。通过对不同领域中异常模式或对象的分析和研究,有助于深入理解该领域的正常行为,及时发现其中的异常行为和模式,具有重要的研究意义和广泛的应用价值。在实际应用中,由于人工标注样本标签的代价高昂或难度较大,使得人们需要处理的对象数据往往是只有少量独立类标签或约束信息的半监督数据形式。为此,基于半监督学习的数据挖掘方法受到越来越多的关注。如何利用
学位
聚类是机器学习中的一个重要而基础的技术,是分析和处理多变量数据的重要方法,被得到广泛应用。但是单一的聚类算法无法处理所有数据,因此存在稳定性和鲁棒性的问题。为了解决这个问题,聚类集成方法应运而生。聚类集成通过集成多个弱的基聚类结果,得到一个更鲁棒,更稳定的聚类结果。虽然聚类集成已经取得了良好的效果,但是传统的聚类集成算法通常采用较弱的基聚类算法,容易导致基聚类结果不可靠。而且已有的算法往往将各个基
学位
智能交通时代,通过摄像头监控车辆动态并进行监督已经是必不可少的车辆管理方式,摄像头监管车辆的一项重要技术就是车牌检测识别技术,它可以快速便捷的通过机动车辆车前车后的标准车牌确认车辆身份。但是对于一些大型车辆,监控视角受限以及标准车牌的磨损严重、污渍附着等问题使得摄像头无法拍摄到合适的标准车牌,车牌的检测识别技术难以获得准确的识别结果,于是本文通过研究非标车牌的检测识别来解决此问题。非标车牌与标准车
学位
网络作为一种非欧式数据结构在现实世界中非常常见,例如表示论文之间引用关系的引文网络,表征用户之间的关系的社交网络,生物学中蛋白质分子网络等。近些年,深度学习由于其优异的特征提取性能成为了热门研究课题,而基于图深度神经网络的网络表示学习方法也逐渐成为图分析研究领域的主流方法。其中基于图自编码器的无监督网络表示学习方法是非常一种经典且常见的方法。当前基于图自编码器的方法通常只有一个解码器和一个编码器,
学位
在现实世界中,许多人在互联网上分享照片、文本等不同种类的信息,这些数据可以被标记多个标签。利用好这些数据,寻找到可用标签和数据之间的关系,可以指导人们更好地学习、工作。传统的多标签学习任务就是学习一个有效的模型,为未知数据赋予多个标签。通常,在训练集中,一个样本标注多个标签,并且所有标注的标签都是精确的。然而,精准标注大规模样本是困难的,一般在标注时,由于疏忽,标注者往往会将一些样本无关的标签分配
学位
传统的药物研发是一个长时间、高投资和高风险的过程。随着医学技术的发展,人们对疾病的发生机制有了越来越清晰地认识,对药物的需求也在不断增加。传统的药物研发方法已经很难满足人们的需求,人们需要一种新的药物研发方法。药物重定位是一种为已有药物寻找新的适应症的方法,可以显著地加快研发进程、减少研发费用和降低研发风险,受到了越来越多的关注。此外,随着计算机技术和高通量测序技术的发展,研究人员能够从多种来源获
学位