论文部分内容阅读
背景:核型分析是细胞遗传学临床实践中用于早期诊断遗传疾病的重要手段。染色体核型异常包括染色体数量异常和结构异常,不仅导致染色体疾病,而且是许多疾病的主要原因,如白血病、先天性心脏病、智力低下等疾病。因此,核型分析是早期诊断遗传相关疾病和胚胎植入前遗传学诊断及筛查的基础和重要参考。它具有易于标本采集和测试成本低廉等优点。然而,临床核型分析工作繁琐、耗时且有时容易出错。即使对于经验丰富的细胞遗传学家来说,核型分析也是一项繁重而且费时的工作。借助已经广泛应用于临床的自动染色体计数软件,对染色体数量异常的核型分析变得比以往的人工计数诊断更快和更准确。然而,结构异常的核型分析受到很多客观条件的限制,如标本制备的过程中有限的染色体的显带水平。即使条带方面满足条件,也难以避免诊断结果出现假阳性和假阴性情况。近年来,深度卷积神经网络(deep convolutional neural network,DCNN)在计算机视觉等许多领域的各种数据分类任务方面受到了广泛的关注,尤其在计算神经科学、医学影像分析和临床信息挖掘等方面表现突出。受DCNN在这些领域的优势性能的启发,很多研究提出了一些对结构异常染色体进行分类的方法。大多数现有的染色体分类方法是在两个顺序性的步骤下进行的:染色体特征提取和分类器学习。这种两步骤的识别模式增加了分类工作的复杂性,并且由于染色体的非刚性的特质,当染色体迂曲和弯折时更加难以实现准确的特征提取。目的:本研究提出一种新的基于DCNN的模型,利用从患者血液或羊水中提取的染色体经显微成像制成图像,自动地对正常和异常染色体进行分类,并对模型的性能进行评估。希望藉此对临床实践起到进一步的促进作用,并期待其能够迅速转化,为将来实现染色体全自动分类,尤其是结构异常染色体的识别,从而减轻染色体核型分析人员的工作负荷提供指导作用。研究方法:本研究入选了在我院完成检查的63例正常染色体患者的2,424条染色体和8种常见染色体结构异常25例患者的544条染色体。根据标准的操作流程和方案对外周血或羊水样本中的这些染色体进行处理,即样本收集后应用胰蛋白酶对样本消化,并用Giemsa染色,应用显带技术制成分辨率约为300~500条带的图像。提取的染色体包含所有的常染色体(1~22类)和两条性染色体(X或Y)。本研究将原始图像中的每条染色体进行分割,分离到其所对应的类别中,然后手动将染色体的每个着丝粒与图像画布的中点对齐,并使用PIL包提取图像的像素值,生成了300×300个Num Py矩阵作为机器学习的特征(X值)。再将生成的Num Py矩阵值标记为32个类别,其中包含24个正常染色体类别:Chr 1、Chr 2、Chr 3、Chr 4、Chr 5、Chr 6、Chr 7、Chr 8、Chr 9、Chr 10、Chr 11、Chr 12、Chr 13、Chr14、Chr 15、Chr 16、Chr 17、Chr 18、Chr 19、Chr 20、Chr 21、Chr 22、Chr X和Chr Y和8类结构异常染色体类别:del(5)(p14)、inv(9)(p12q13)、del(18)(p11)、i(18)(q10)、i(X)(q10)、del(X)(p22)、del(X)(q21)和del(X)(q22)作为标签y值。然后将这些图像用于提出的基于DCNN的模型。该模型的结构包含11层:三个3×3卷积层、三个最大池化层、一个平化层和四个全连接层。三个卷积层的通道数分别为32、64和64。从每个卷积层提取的特征通过具有2×2窗口的最大池化层进行下采样,并使用softmax函数(交叉熵验证)作为训练损失函数。每个卷积层包括一个卷积操作和一个非线性激活,而每个全连接层将其输入值乘以一个权重矩阵,然后添加一个偏置向量,最后是一个非线性激活函数Re LU。应用此模型对上述数据集进行训练和验证(采用5折交叉验证)。当进行5次交叉验证后,评估所提出模型在四个常用指标下的性能,包括精度、查准率、查全率和F1分数。在多类分类问题中计算混淆矩阵并绘制出相应的热图。本研究特别分析了8类异常染色体相对于其正常染色体的分类任务,并使用受试者工作特征(ROC)曲线和曲线下面积(AUC)评分来评估异常染色体的二分类问题。结果:本研究应用所提出的基于DCNN的模型对正常和异常染色体图像进行训练和验证,并评估验证的指标。该指标在经过五次独立的训练和验证后取平均值作为交叉验证结果。正常染色体分类的平均精度为91.75%;查准率、查全率和F1分数分别为91.81%、91.75%和91.75%。正常和异常核型合并数据集的精度为87.76%;查准率、查全率和F1分数分别为87.81%、87.76%和87.70%。研究首次尝试采用DCNN模型将染色体的8种常见结构异常与其相应的正常染色体进行训练识别区分。本论文得到的精度范围为90.84%~100%,ROC曲线下面积值范围为91.81%~100%。i(18)(q10)的分类精度最高,为100%,查准率、查全率和F1分数均为100%,ROC曲线下面积亦为100%。del(18)(p11)异常的精度最低,为90.84%,查准率、查全率、F1分数和ROC曲线下面积分别为90.74%、90.84%、90.70%和97.68%。结论:本研究提出的基于DCNN的模型能够有效地对正常和异常核型进行端对端的分类。它无需事先进行特征提取,而是直接进行智能识别。该模型有能力和潜力用作遗传诊断中异常核型检测和筛查的工具。本研究渴望通过减少诊断工作量,弥补医生临床经验的不足,提高工作效率和准确性,从而对临床实践中低成本的遗传学分诊管理具有重要的现实意义。