基于知识图谱的海量数据错误标签的纠正

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：xhb876

【摘要】

：

机器学习算法的性能极大程度地受到训练数据质量的影响。大多数真实世界的分类任务中，不可避免地存在各种各样的标签错误，即类噪声。学术界提出了不少噪声处理算法，这些算法包括

【作者】

：

刘艺

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2014年期

【关键词】

：

知识图谱标签纠正噪声纠正数据质量分类问题

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习算法的性能极大程度地受到训练数据质量的影响。大多数真实世界的分类任务中，不可避免地存在各种各样的标签错误，即类噪声。学术界提出了不少噪声处理算法，这些算法包括利用学习算法本身的健壮性减少噪声的影响、采用噪声过滤策略移除错误数据、以及采用噪声纠正策略恢复正确数据。由于目前存在的噪声处理方法存在一些缺陷，在高噪声水平下性能不稳定，且很难应用于大数据的环境。因此，本文将传统的机器学习模型与最新的知识图谱技术相结合，提出了一种基于知识图谱的噪声纠正算法。并且，将此算法应用于医疗就诊的大数据上，用来纠正数据集中错误的科室标签。实验结果表明，本文提出的噪声纠正算法在基础算法上取得了一定的性能提高；能够有效地纠正数据集中的标签错误，并且提高纠正后数据的分类准确度。研究还显示算法可以在相对高噪声水平情况下工作，而且知识图谱的技术还可以应用在其他需要深度理解的领域。

其他文献

多源反编译关键技术研究

随着嵌入式设备的应用越来越广泛，传统平台上的各种软件漏洞和基于漏洞的恶意攻击行为正在向嵌入式领域蔓延。反编译作为软件逆向分析工作的基础性工程，已经在通用平台的软件漏

学位

嵌入式设备软件逆向分析相关性特征透明化处理多源反编译

BOSS网管服务管理系统的设计与实现

随着业务的发展,企业一方面不断购进IT基础设施,增加IT系统的复杂性,另一方面又要求IT管理部门提供稳定可靠的服务。因此,企业需要实用、有效的服务管理系统来管理庞大的IT设

学位

ITSMITIL服务管理流程管理

基于Matlab分布式计算工具箱的流场计算及可视化

对流场的数值模拟历来是工程流体力学界十分感兴趣的课题，数值模拟与科学计算可视化技术的结合在流体力学研究中发挥了不可替代的作用。跟踪和驾驭方式的可视化技术是目前科学

学位

流场模拟数值模拟工程流体力学科学计算计算可视化

分布式计算环境下大整数分解的研究

大整数分解问题历来是数学家们关注的热点问题。随着信息技术的飞速发展,以RSA为代表的公钥密码体制得到了广泛的应用。RSA的安全性基于大整数分解是困难的这一命题,即:找到

学位

大整数分解Web服务网格计算二次筛法多个多项式的二次筛法(MPQS)

适用于网格环境的类MPI轻量级并行编程框架的设计与实现

网格计算的兴起与发展很大程度上改变了传统的计算模式。网格通过将地理上分布的异构计算资源进行整合，对其提供统一透明的访问接口，使得诸如大规模计算、分布式数据分析等相关

学位

网格计算并行编程多线程JavaMPIGridPPI

基于OFBiz框架的网络分销管理系统在ASP模式上的应用

本文通过分析国内中小型企业信息化建设过程中遇到的问题,研究当前全球中小企业信息化建设发展的新模式,结合珍珠兰茶叶有限责任公司迫切需要解决的分销管理方面的重大问题,

学位

企业信息化网络化分销ASP面向对象AJAX

分层数据处理理论在信息安全中的应用研究

在信息安全领域，有关计算问题复杂度的研究是一个重点内容。本文深入研究了一种基于图论思想的，分析计算问题复杂度的新理论——分层数据处理理论，并应用该理论来分析和解决信息

学位

分层数据处理认证数据结构组播逻辑密钥树信息安全

主题搜索引擎的信息抽取和索引的研究

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wr

学位

XSLT信息抽取XML

基于云环境的网络安全相关技术研究

云计算已经成为下一代互联网发展的趋势，广泛部署在各种应用系统中。然而对于云计算的安全研究不是很多。本文首先对云计算进行简要介绍，然后针对当前云计算安全性存在的关键技

学位

计算机网络云计算系统网络安全软件工具

语义网格在反垃圾邮件领域的研究与应用

互联网的高速发展为人们的工作和生活提供了便捷的服务，特别是电子邮件凭借其快捷、廉价等特点，已经成为人们日常生活中不可缺少的一部分。但是，电子邮件的普及也使其成为一把双

学位

语义网格反垃圾邮件自然语言本体网格模拟器

基于知识图谱的海量数据错误标签的纠正

与本文相关的学术论文