论文部分内容阅读
机器学习算法的性能极大程度地受到训练数据质量的影响。大多数真实世界的分类任务中,不可避免地存在各种各样的标签错误,即类噪声。学术界提出了不少噪声处理算法,这些算法包括利用学习算法本身的健壮性减少噪声的影响、采用噪声过滤策略移除错误数据、以及采用噪声纠正策略恢复正确数据。由于目前存在的噪声处理方法存在一些缺陷,在高噪声水平下性能不稳定,且很难应用于大数据的环境。因此,本文将传统的机器学习模型与最新的知识图谱技术相结合,提出了一种基于知识图谱的噪声纠正算法。并且,将此算法应用于医疗就诊的大数据上,用来纠正数据集中错误的科室标签。实验结果表明,本文提出的噪声纠正算法在基础算法上取得了一定的性能提高;能够有效地纠正数据集中的标签错误,并且提高纠正后数据的分类准确度。研究还显示算法可以在相对高噪声水平情况下工作,而且知识图谱的技术还可以应用在其他需要深度理解的领域。