论文部分内容阅读
随着系统生物学的发展,基因组学、蛋白组学、代谢组学等在疾病诊断、药物疗效等方面应用日益广泛。基因、蛋白、代谢等生物信息学数据通常是高维,而特征选择技术能从高维数据中过滤掉噪音和无关变量,从而有效的降维。本文对特征选择技术及其在生物信息处理中的应用进行研究。生物信息学时间序列数据分析有助于探寻疾病的发生发展过程,寻找疾病发生的前瞻性标志物。传统的处理时间序列方法常用来处理某种监测变量在相对较短的时间间隔下的连续测量值,主要用于预测、异常点检测及分类等。而生物信息学中的时间序列通常是多样本及高维数据在时间维度上的序列,且时间点少。本文对生物信息学中时间序列数据处理方法进行研究,为从大量变量中筛选反应疾病发生的前瞻性标志信息,提出了一种利用相对偏差思想来对时间序列特征选择的方法wRDA。为了反应不同时间点在疾病发生发展过程中的所处的阶段不同,wKDA方法采用各个时间点上加权的相对偏差并累加来寻找疾病的前瞻性标志信息。为验证wRDA方法的有效性,本文将其分别应用到一个动物肝病实验和一个人群肝病的代谢时间序列数据处理中,同时,结合临床时间序列数据处理的特点,兼顾样本储藏时间的影响,本文对同一时间点的不同采样时间加权,将wRDA扩展为w2RDA方法。动物时间序列代谢组学的数据分析实验结果表明,wRDA能够发现已知的重要的反映肝病不同病程的代谢物,同时所选变量能够较好的区分有病与无病、肝癌和非肝癌样本。在人群肝病的时间序列代谢数据处理中,发现筛选的特征子集中血清胆汁酸在癌前阶段具有长期升高的现象,因此本文推测胆汁酸为肝癌发生的风险因子。针对生物信息学数据具有变量维度高、样本少的特点,本文提出了一种特征选择算法ReliefF-WS,用来过滤噪声及降低维度。算法首先利用类重叠的思想对样本进行度量并赋予一定的权值,质量好的样本将获得较高的权值,质量差的样本得到较低的权值。ReliefF算法是一种快速有效的过滤式特征选择算法,将类重叠样本加权的思想应用到ReliefF算法中对其进行改进,可以降低ReliefF算法在特征权值更新过程中较差的样本带来的影响。改进后的ReliefF-WS算法和ReliefF算法在8个生物信息学公共数据集上进行比较,实验结果表明,ReliefF-WS算法较原始ReliefF能更准确地对变量进行排名。