基于知识图谱的海量数据错误标签的纠正

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xhb876
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习算法的性能极大程度地受到训练数据质量的影响。大多数真实世界的分类任务中,不可避免地存在各种各样的标签错误,即类噪声。学术界提出了不少噪声处理算法,这些算法包括利用学习算法本身的健壮性减少噪声的影响、采用噪声过滤策略移除错误数据、以及采用噪声纠正策略恢复正确数据。由于目前存在的噪声处理方法存在一些缺陷,在高噪声水平下性能不稳定,且很难应用于大数据的环境。因此,本文将传统的机器学习模型与最新的知识图谱技术相结合,提出了一种基于知识图谱的噪声纠正算法。并且,将此算法应用于医疗就诊的大数据上,用来纠正数据集中错误的科室标签。实验结果表明,本文提出的噪声纠正算法在基础算法上取得了一定的性能提高;能够有效地纠正数据集中的标签错误,并且提高纠正后数据的分类准确度。研究还显示算法可以在相对高噪声水平情况下工作,而且知识图谱的技术还可以应用在其他需要深度理解的领域。
其他文献
随着嵌入式设备的应用越来越广泛,传统平台上的各种软件漏洞和基于漏洞的恶意攻击行为正在向嵌入式领域蔓延。反编译作为软件逆向分析工作的基础性工程,已经在通用平台的软件漏
随着业务的发展,企业一方面不断购进IT基础设施,增加IT系统的复杂性,另一方面又要求IT管理部门提供稳定可靠的服务。因此,企业需要实用、有效的服务管理系统来管理庞大的IT设
对流场的数值模拟历来是工程流体力学界十分感兴趣的课题,数值模拟与科学计算可视化技术的结合在流体力学研究中发挥了不可替代的作用。跟踪和驾驭方式的可视化技术是目前科学
大整数分解问题历来是数学家们关注的热点问题。随着信息技术的飞速发展,以RSA为代表的公钥密码体制得到了广泛的应用。RSA的安全性基于大整数分解是困难的这一命题,即:找到
网格计算的兴起与发展很大程度上改变了传统的计算模式。网格通过将地理上分布的异构计算资源进行整合,对其提供统一透明的访问接口,使得诸如大规模计算、分布式数据分析等相关
本文通过分析国内中小型企业信息化建设过程中遇到的问题,研究当前全球中小企业信息化建设发展的新模式,结合珍珠兰茶叶有限责任公司迫切需要解决的分销管理方面的重大问题,
在信息安全领域,有关计算问题复杂度的研究是一个重点内容。本文深入研究了一种基于图论思想的,分析计算问题复杂度的新理论——分层数据处理理论,并应用该理论来分析和解决信息
随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wr
云计算已经成为下一代互联网发展的趋势,广泛部署在各种应用系统中。然而对于云计算的安全研究不是很多。本文首先对云计算进行简要介绍,然后针对当前云计算安全性存在的关键技
互联网的高速发展为人们的工作和生活提供了便捷的服务,特别是电子邮件凭借其快捷、廉价等特点,已经成为人们日常生活中不可缺少的一部分。但是,电子邮件的普及也使其成为一把双