论文部分内容阅读
计算机辅助疾病诊断技术是一种利用医学影像学、医学图像处理技术和生理生化技术进行疾病自动化诊断技术。虽然计算机辅助宫颈疾病诊断(ComputerAided DiagnosisofCervicalDiseases,CADCD)方法最近几年已经取得很大进步,但是随着大数据和人工智能时代到来,现有方法面临新的挑战包括大数据量、高维特征空间和多模态数据处理问题。CADCD方法的性能还不能满足人们的实际需求例如:诊断疾病种类有限以及无法有效利用多种模态数据。CADCD方法使用影像组学技术需要提取大量高维特征,但是随着数据维度增加,会产生大量无关和冗余信息降低学习算法性能并增加计算复杂度,引起“维度灾难”和“过拟合”问题。本研究立足临床实际需求,针对现有特征选择算法不能在不显著降低分类精度同时选择尽量小的特征子集问题,以及传统的评价准则不能准确度量特征间关联程度的问题,提出基于全局最优最大信息系数多目标特征选择算法,进而提出基于多目标特征选择的CADCD方法解决多疾病诊断问题和多模态数据处理问题。本文的主要研究成果和创新点如下:
(1)对过滤式特征选择算法的评价准则进行阐述,并使用实验方式进行对比分析,探索评价准则的特点及存在问题。利用人工数据集定量论证最大信息系数能公平地度量线性、非线性函数依赖关系以及非函数依赖关系;在真实数据集上实验结果表明,基于最大信息系数特征选择算法显著优于基于互信息特征选择算法和基于皮尔森相关系数特征选择算法。
(2)现有过滤式特征选择方法存在两个问题:使用的评价准则不能公平准确地度量特征间的关联性;以个体方式评价特征忽视特征间的内在联系。提出基于全局最优最大信息系数多目标特征选择方法,以整体方式的评价特征子集同时解决加权系数难确定的问题。根据最大信息系数提出最大依赖准则和最小冗余准则用于评价特征子集的有效性,以此建立最大相关度、最小冗余度、最小特征数为目标函数的多目标特征选择模型,采用多目标进化算法对多目标特征选择模型优化求解。提出方法能有效地在不显著降低分类精度同时选择尽量小的特征子集,具有较低计算复杂度和较高的适用性。
(3)现有CADCD方法主要存在多疾病诊断、高维特征空间和多模态数据处理问题,多疾病诊断符合临床实际需求,高维特征空间增加计算复杂度和储存空间,从而影响诊断性能和不利于系统在贫困地区的推广,多模态数据的粒度和类型不同很难进行统一,针对上述问题,提出基于多目标特征选择的CADCD方法。提出多模态框架采用提取数值特征方式融合三种模态包括三种宫颈图像模态、细胞学检查报告模态和患者年龄模态,对于图像模态,提出基于k均值与代表性颜色的宫颈图像分割算法,从分割后三种不同类型的宫颈图像提取颜色特征和纹理特征,对于细胞学检查报告模态采用独热编码方式;融合多模态信息增加特征维数,提出基于全局最优最大信息系数多目标特征选择算法用于特征选择,能在淘汰冗余特征同时发现对疾病影响最大特征;使用随机森林利用选中特征实现对三种宫颈疾病进行诊断。该方法展现出计算复杂度低和综合诊断性能优秀的特点,并凸显多模态优势。
(1)对过滤式特征选择算法的评价准则进行阐述,并使用实验方式进行对比分析,探索评价准则的特点及存在问题。利用人工数据集定量论证最大信息系数能公平地度量线性、非线性函数依赖关系以及非函数依赖关系;在真实数据集上实验结果表明,基于最大信息系数特征选择算法显著优于基于互信息特征选择算法和基于皮尔森相关系数特征选择算法。
(2)现有过滤式特征选择方法存在两个问题:使用的评价准则不能公平准确地度量特征间的关联性;以个体方式评价特征忽视特征间的内在联系。提出基于全局最优最大信息系数多目标特征选择方法,以整体方式的评价特征子集同时解决加权系数难确定的问题。根据最大信息系数提出最大依赖准则和最小冗余准则用于评价特征子集的有效性,以此建立最大相关度、最小冗余度、最小特征数为目标函数的多目标特征选择模型,采用多目标进化算法对多目标特征选择模型优化求解。提出方法能有效地在不显著降低分类精度同时选择尽量小的特征子集,具有较低计算复杂度和较高的适用性。
(3)现有CADCD方法主要存在多疾病诊断、高维特征空间和多模态数据处理问题,多疾病诊断符合临床实际需求,高维特征空间增加计算复杂度和储存空间,从而影响诊断性能和不利于系统在贫困地区的推广,多模态数据的粒度和类型不同很难进行统一,针对上述问题,提出基于多目标特征选择的CADCD方法。提出多模态框架采用提取数值特征方式融合三种模态包括三种宫颈图像模态、细胞学检查报告模态和患者年龄模态,对于图像模态,提出基于k均值与代表性颜色的宫颈图像分割算法,从分割后三种不同类型的宫颈图像提取颜色特征和纹理特征,对于细胞学检查报告模态采用独热编码方式;融合多模态信息增加特征维数,提出基于全局最优最大信息系数多目标特征选择算法用于特征选择,能在淘汰冗余特征同时发现对疾病影响最大特征;使用随机森林利用选中特征实现对三种宫颈疾病进行诊断。该方法展现出计算复杂度低和综合诊断性能优秀的特点,并凸显多模态优势。