论文部分内容阅读
随着社会以及网络的发展,人们会在日常活动中产生越来越多的数据,很多研究人员已经利用这些数据做了大量研究,比如,一些购物网站上的推荐算法,利用某个消费者以往的消费记录,可以预测此消费者可能需要的产品。商家也可以利用很多消费者的消费记录进行分析,以帮助制定合适的产品套餐。数据在当今的社会已经成为一种很重要的资源,利用数据可以挖掘出很多重要的信息。人体本身也带有很多数据,那么是否可以利用这些数据挖掘出一些重要信息,常见的基因方面的数据有转录组数据,以及甲基化数据等。转录组数据主要用来研究在单个细胞、或者特定类型的细胞、组织、器官或者发育阶段的细胞群内所产生的各类RNA(通常是m RNA)分子的类型和数量。转录组数据测量的是在某个特定样本里表达的基因丰度及其类型。其中,m RNA的丰度是指每个细胞里每一种m RNA分子的平均数。甲基化一般是指在酶的作用下,DNA胞嘧啶以特定方式被甲基化修饰。目前已经有多个研究发现,DNA甲基化水平以某种方式影响人类肿瘤的发生以及发展。检测得到的DNA甲基化水平值可用于判断肿瘤的分期以及肿瘤的预后判断,这对于肿瘤的治疗具有重要意义。在头颈部癌症中超过90%的癌症属于头颈鳞状细胞癌。头颈鳞状细胞癌是世界上十大常见癌症之一,并且存活率也较低。如果能找到与头颈鳞状细胞癌相关的基因标记,并对疾病的分期以及病人的存活时间进行有效的预测将具有重要意义。本文主要是利用原发性头颈鳞状细胞癌的转录组数据以及甲基化数据进行分期以及存活时间的预测。首先,甲基化数据和转录组数据都有上万级的特征,我们利用所设计的算法对合并后的数据集进行特征选择,也就是从大量特征中选择出对区分头颈鳞状细胞癌分期有用的特征。同时,由于数据样本类别分布不均衡,也就是处于Ⅳ期的样本数量最多,大约占总样本数量的60%,所以,我们设计算了“OROO”方法解决这个问题,提高预测效果。本文在进行特征提取以及参数优化后,从原来上万级的特征中选择出了154个特征,在这154个特征中,有144个特征属于转录组数据,有10个特征属于甲基化数据。最终,我们以较高的准确率预测了头颈鳞状细胞癌的分期,其中平均绝对误差为0.027、准确率为97.98%。同时也证明了我们选择出的特征与头颈鳞状细胞癌的分期密切相关。接下来,我们利用挑选出的特征再次经过特征选择,选择出了31个特征,以14.175个月的平均绝对误差预测了样本的存活时间。同时也说明了,这31个特征与存活时间密切相关。此实验对于头颈鳞状细胞癌的研究以及制定合适的治疗措施具有重要意义。最后,利用本文中提出的SFMC方法进行头颈鳞状细胞癌的二分类分期预测,并与目前的头颈鳞状细胞癌的二分类分期预测效果进行了比较,我们的实验方法取得了更好的预测效果。