论文部分内容阅读
卵巢癌是目前死亡率最高的妇科肿瘤疾病之一,约占所有妇科恶性肿瘤的15%。据统计,在美国每年发病人数为2.5万,死亡达到1.6万,在中国每年死亡人数高达11.4万,严重危害了妇女的身体健康。卵巢癌具有起病隐匿,早期不易发现,易转移,预后差等特点,70%-80%的卵巢癌患者发现时已为晚期,5年存活率仅为20%-30%,而早期卵巢癌患者的存活率可达90%。因此,提高卵巢癌的早期诊断技术显得尤为迫切。临床研究表明,溶血磷脂质分子在患有卵巢癌的妇女身上有明显升高的现象,因此在磷脂质分子中提取生物标识物对卵巢癌的早期筛选有重要作用。目前的肿瘤分类算法模型多数基于多个特征变量,或者多个模型,这些模型虽然取得了不错的分类率,然而多特征变量检测复杂,临床上要求变量个数少,特异性和敏感性显著,结构简单的模型。本文基于卵巢癌磷脂质类数据展开研究,针对早期卵巢癌数据,本文在预处理阶段提出一种新的数据标幺化方法去掉批次对样本分类的影响,并从挑选特征的一致性和分类性能方面研究样本的批次差异性以及血浆和血清样本的差异性。随后基于诊断类别相关度和分类稳定度方法提取对早期卵巢癌有显著分类意义的特征标志物,对卵巢癌的早期临床诊断和生物医学研究起到有益的参考和借鉴作用。同时目前特征选择模型大多基于多变量,或者多模型,本文提出一种基于极少特征标志物的两步预测方法,挑出敏感性和特异性显著且均衡,分类效果和多个特征标志物的分类效果相当的少量特征标志物,既符合实际临床的应用要求,又大大节省了医疗成本。本文主要内容如下:第一章是绪论部分,主要介绍卵巢癌的研究背景,以及卵巢癌诊断的国内外研究现状,并阐述了本课题的研究意义。第二章主要研究卵巢癌磷脂质类数据的预处理。针对早期数据,提出一种新的数据预处理方法,去掉样本和批次差异,再从样本数据的分布情况,挑选特征标志物的一致性和特征标志物的分类性能方面证明批次对样本分类会产生影响,而血浆和血清样本无显著差异。第三章主要研究基于磷脂类数据的早期卵巢癌特征标志物提取。通过诊断类别相关度和分类稳定度方法挑选出分类效果最优的特征子集,相比其他数据批次上挑出的特征,证明挑选的早期特征对早期卵巢癌分类具有特异性,最后从生物学意义角度对特征标志物进行有效性讨论。第四章主要研究基于极少特征标志物的卵巢癌两步预测模型,基于先期得到的特征标志物,对其进行ROC曲线的分类能力分析,测试单个变量和两个变量组合对疾病判断的敏感性和特异性,挑选其中AUC指标较高,敏感性和特异性显著且均衡的变量组合,再利用两步预测方法,获得分类效果好且彼此无关的变量组合,为临床诊断提供参考。最后,对全文进行总结展望。在总结本论文研究工作的基础上,对未来的研究方向进行展望。