计算机辅助医学影像诊断中的关键学习技术研究

被引量 : 0次 | 上传用户:xyzsoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用计算机技术辅助放射科医生进行病例诊断,即计算机辅助诊断(Computer Aided Diagnosis, CAD)在早期乳腺癌检查中起到越来越重要的作用,能有效帮助减少乳腺癌患者的死亡率。临床上已标记病例样本难以搜集同时阴性病例样本数远大于阳性病例样本数,因而在CAD应用中存在小样本、非平衡数据集的学习问题。非平衡及小样本学习问题是关于类别严重不对称及信息欠充分表达数据集的学习性能问题。非平衡及小样本学习在许多现实应用中具有重要意义,尽管经典机器学习与数据挖掘技术在许多实际应用中取得很大成功,然而针对小样本及非平衡数据的学习对于学者们来说仍然是一个很大的挑战。本论文系统地阐述了机器学习在小样本与非平衡学习环境下性能下降的主要原因,并就目前解决小样本、非平衡学习问题的有效方法进行了综述。本论文在充分理解常用欠采样方法在处理非平衡样本时易于丢失类别信息的问题基础上,重点研究如何合理、有效处理非平衡数据。论文提出两种欠采样新方法有效提取最富含类别信息的样本以此解决欠采样引起的类别信息丢失问题。另外针对小样本学习问题,论文提出新的类别标记算法。该算法通过自动标记未标记样本扩大训练样本集,同时有效减少标记过程中易发生的标记错误。本论文聚焦小样本、非平衡数据的学习技术研究。围绕非平衡数据集的重采样及未标记样本的类别标记等问题展开研究。论文的主要工作包括:(1)针对CAD应用中标记病例样本难以收集所引起的小样本学习问题,本论文利用大量存在的未标记样本来扩充训练样本集以此解决小样本学习问题。然而样本标记过程中往往存在错误类别标记,误标记样本如同噪声会显著降低学习性能。针对半监督学习中的误标记问题,本论文提出混合类别标记(Hybrid Class Labeling)算法,算法从几何距离、概率分布及语义概念三个不同角度分别进行类别标记。三种标记方法基于不同原理,具有显著差异性。将三种标记方法有一致标记结果的未标记样本加入训练样本集。为进一步减少可能存在的误标记样本对学习过程造成的不利影响,算法将伪标记隶属度引入SVM(Support Vector Machine)学习中,由隶属度控制样本对学习过程的贡献程度。基于UCI中Breast-cancer数据集的实验结果表明该算法能有效地解决小样本学习问题。相比于单一的类别标记技术,该算法造成更少的错误标记样本,得到显著优于其它算法的学习性能。(2)针对常用欠采样技术在采样过程中往往会丢失有效类别信息的问题,本论文提出了基于凸壳(Convex Hull,CH)结构的欠采样新方法。数据集的凸壳是包含集合中所有样本的最小凸集,所有样本点都位于凸壳顶点构成的多边形或多面体内。受凸壳的几何特性启发,算法采样大类样本集得到其凸壳结构,以简约的凸壳顶点替代大类训练样本达到平衡样本集的目的。鉴于实际应用中两类样本往往重叠,对应凸壳也将重叠。此时采用凸壳来表征大类的边界结构对学习过程是一个挑战,容易引起过学习及学习机的泛化能力下降。考虑到缩减凸壳(Reduced Convex Hull,RCH)、缩放凸壳(Scaled Convex Hull,SCH)在凸壳缩减过程中带来边界信息丢失的问题,我们提出多层次缩减凸壳结构(Hierarchy Reduced Convex Hull,HRCH)。受RCH与SCH结构上存在显著差异性及互补性的启发,我们将RCH与SCH进行融合生成HRCH结构。相比于其它缩减凸壳结构,HRCH包含更多样、互补的类别信息,有效减少凸壳缩减过程中类别的信息丢失。算法通过选择不同取值的缩减因子与缩放因子采样大类,所得多个HRCH结构分别与稀有类样本组成训练样本集。由此训练得多个学习机,并通过集成学习产生最终分类器。通过与其它四种参考算法的实验对比分析,该算法表现出更好分类性能及鲁棒性。(3)针对欠采样算法中类别信息的丢失问题,本论文进一步提出基于反向k近邻的欠采样新方法,RKNN。相比于广泛采用的k近邻,反向k近邻是基于全局的角度来检查邻域。任一点的反向k近邻不仅与其周围邻近点有关,也受数据集中的其余点影响。样本集的数据分布改变会导致每个样本点的反向最近邻关系发生变化,它能整体反应样本集的完整分布结构。利用反向最近邻将样本相邻关系进行传递的特点,克服最近邻查询仅关注查询点局部分布的缺陷。该算法针对大类样本集,采用反向k最近邻技术去除噪声、不稳定的边界样本及冗余样本,保留最富含类别信息且可靠的样本作为训练样本。算法在平衡训练样本的同时有效改善了欠采样引起的类别信息丢失问题。基于UCI中Breast-cancer数据集的实验结果验证了该算法解决非平衡学习问题的有效性。相比于基于k最近邻的欠采样方法,RKNN算法得到了更好的性能表现。
其他文献
西部民族地区的扶贫开发还面临许多矛盾和问题。西部地区脱贫进度相对缓慢,资金使用效益比较差并投入力度不够,财源的培植与贫困户的发展矛盾突出,异地安置越来越难,农民收入缓慢
<正>为适应全球化背景下汉语国际推广的国家战略,促进对外汉语教材的研究,加快汉语国别化教材的建设,由桂林电子科技大学、厦门大学合作主办,桂林电子科技大学国际学院承办的
针对军用红外光学系统的性能特性与其结构的密切关系,深入研究和比较传统与现代系统结构形式的技术特点。在提出军用红外光学系统性能特性的基础上,归纳总结传统折射式、反射
<正>从2001年至今,朱幼棣在国务院研究院社会政策司司长的岗位上呆了十年,被人形容为"高级幕僚"。过去几十年从未对现实政策有过公开言论,在61岁这一年,过了退休年龄却依旧在
<正> 近几年来,我国中学历史教学研究领域发生了可喜的变化。经过历史教材教法专家、学者及广大中学历史教师的共同努力,深入探讨了中学历史教学的许多规律性问题,总结出不少
8月20日,在交通部公告的8项交通运输行业标准中,除了JT/T 325-2010《营运客车类型划分及等级评定》以外,另外值得关注的是JT/T 782-2010《营运客车爆胎应急安全装置技术要求
克隆出茶树咖啡碱合成酶基因,对其进行原核表达,并制备TCS1抗体,旨在从蛋白水平研究茶树体内TCS1的表达情况。根据Gen Bank登陆的TCS1基因的全长c DNA序列,找出其完整的ORF(
<正>2015年4月9日,由世界中医药学会联合会举办的"一带一路"中俄中医合作示范项目暨"海外惠侨计划"实施方案研讨会在京召开。国务院侨务办公室国外司朱柳副巡视员、国家中医
长期以来,在发达国家的主导之下,国际投资协定片面强调保护投资、促进投资自由化,而忽视了对于东道国公共利益的保护。在国际投资实践中,东道国、母国、投资者、东道国国民都
为了解决在低摩尔比脲醛树脂中使用常用的氯化氨作为固化剂时固化速度较慢、胶接强度较低的问题,开发出了一新型F-3复合型固化剂(氯化铵,过硫酸铵,六次甲基四胺,甘氨酸),使刨