基于多示例学习的心电图分析和图像分类算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:illyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多示例学习是一种新的机器学习框架,是机器学习领域中的热门的研究方向。近年来,有监督学习在很多应用领域中已经取得了的成功。然而,在现实应用中,许多问题依然难以用简单的示例进行描述,而且高质量、大规模的标注样本集难以获得。区别于基于样例的学习方法,多示例学习引入了包的概念,学习对象被称为包,每个包由数目不确定的示例构成。包是有标记的,示例是无标记的。多示例学习作为一种新型的机器学习框架,可以有效地解决很多有监督学习难以解决的问题。   近年来,用机器学习的方法来分析心电图是一个很热门的应用领域。由于一个心电图中包含多个心跳,并且心跳规模巨大且无法全部人工标注,因此有监督的学习机制无法在心电图自动分类取得好的分类性能。本文分析了多示例学习算法应用到心电图自动分类的合理性,并提出了一个新的基于隐式主题模型的多示例学习算法(LTMIL)。在LTMIL算法中,我们通过将无监督学习应用到未标注的心跳数据集中,构建了隐式主题模型,并将心电图映射到主题模型中,得到心电图层的特征向量,并最终通过有监督的学习如支持向量机等,训练心电图分类器,并对未知的心电图进行预测。在PTB诊断数据库的心电图数据集上的测试结果表明:与典型的多示例算法和监督学习算法相比,LTMIL提高了分类结果的敏感性和特异性,并且无需标注心跳标签。   随着多示例学习的发展以及其应用问题的复杂化,多示例学习有了一个更为泛化的定义,即包的标签是由示例的标签决定的,但是这种关系式复杂且未知的。图像分类问题就是典型的泛化的多示例学习问题:图像对应于包,图像中萃取的小块或者分割的区域对应于示例,示例的标签是模糊的,但是所有包内的示例将决定包的标签。当前的机器学习算法,都很难科学的应对泛化的多示例学习问题。我们对泛化的多示例学习问题给出了一个新的定义,认为在所有示例中,不仅对正示例或者负示例,都存在这可信示例和模糊示例,其中,可信示例决定着包的标签。虽然包和示例关系也是复杂未知的,但是,保留可信示例并去除模糊示例可以对示例的判断发挥很大的作用。为此,我们提出了一个新的基于协同训练的示例选择策略(CTIS):首先,从所有示例中选出可信示例训练分类器;然后,对包中的未知示例进行分析,预测示例标签;最终通过基于示例标签的多示例核对包进行分类。实验表明CTIS算法能有效的解决泛化的多示例学习问题。   本文的主要研究工作和创新点包括以下两个方面:   1.围绕心电图分类问题,尤其针对心肌梗塞症状心电图分类,提出了一个新的多示例学习算法——LTMIL算法。我们对多示例学习应用到心电图分类问题的合理性进行了论述,并将多示例学习算法首次应用到心电图分类问题中。实验结果表明,多示例学习相比于有监督学习,能够更好的解决心电图分类、分析问题。相关的研究成果已发表,见发表文章列表[1][4].   2.针对图像分类问题,提出了一个新的针对于泛化的多示例学习问题的算法——CTIS算法。在CORAL图像数据库中的实验结果表明,CTIS可以有效的解决图像分类问题,其表现优于现有的最好的多示例学习算法。  
其他文献
随着信息技术,计算机技术和通信技术的迅猛发展,人们生活的环境逐渐成为涉及信息空间(Cyber World),物理空间(Physical World)和社会空间(Social World)的混合空间,也被称为“信
颜色恒常性是人类视觉系统的特性之一,在机器视觉中颜色恒常性算法可以对彩色图像进行颜色校正,使其不受场景光照和反射等影响,还原物体的本来颜色,使用这种方法可以在许多场
随着信息技术的发展,异构分布式计算机系统以其低成本、高效率的特点得到人们的广泛关注。在异构分布式计算机系统的研究过程中,任务调度算法决定了并行程序是否能够充分利用系
人体运动捕捉技术是虚拟现实、计算机视觉和计算机图形学领域研究的热点和难点之一,被广泛应用于人体动画、运动分析、人机交互、模拟训练、生物力学研究等领域。人体运动捕获
本文对医学图像可视化移动立方体算法的二义性进行了研究,分析了该课题的研究背景及意义、国内外的研究现状,了解了面绘制及相关技术,重点研究了移动立方体算法的基本原理、主要
SSL协议作为电子商务中最重要的信息安全技术之一,是当前研究的热点。SSL协议位于TCP/IP协议模型的网络层和应用层之间,使用TCP来提供一种可靠的端到端的安全服务,它使客户端
伴随着虚拟现实技术和视觉技术的快速发展,三维虚拟人逐渐成为虚拟现实领域的研究热点,为实现虚拟人的个性化,三维虚拟人头部模型是不可或缺的部分。虚拟人的三维头部建模研
精确勾画出四维 CT(Four-Dimensional Computed Tomography,4D-CT)所有时相中的肿瘤区(Gross Tumor Volume,GTV)能够最大程度地减小内部肿瘤区(Internal Gross Tumor Volume)
图像识别属于人工智能的一部分,是当前学术前沿,诞生了众多的研究分支。本文选择了对图像识别的基础算法加以研究,分别为图像相似度、边缘检测和物体轮廓定位方法,并提出了新
目前,基于内容的商标检索是商标查重的一种重要的技术手段,该技术主要通过计算机自动地对图像进行特征提取以及特征匹配,最终返回与待检索图像相似的图像,避免了基于类目或文本的