特征选择及其在生物信息处理中的应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zzssxxzzssxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着系统生物学的发展,基因组学、蛋白组学、代谢组学等在疾病诊断、药物疗效等方面应用日益广泛。基因、蛋白、代谢等生物信息学数据通常是高维,而特征选择技术能从高维数据中过滤掉噪音和无关变量,从而有效的降维。本文对特征选择技术及其在生物信息处理中的应用进行研究。生物信息学时间序列数据分析有助于探寻疾病的发生发展过程,寻找疾病发生的前瞻性标志物。传统的处理时间序列方法常用来处理某种监测变量在相对较短的时间间隔下的连续测量值,主要用于预测、异常点检测及分类等。而生物信息学中的时间序列通常是多样本及高维数据在时间维度上的序列,且时间点少。本文对生物信息学中时间序列数据处理方法进行研究,为从大量变量中筛选反应疾病发生的前瞻性标志信息,提出了一种利用相对偏差思想来对时间序列特征选择的方法wRDA。为了反应不同时间点在疾病发生发展过程中的所处的阶段不同,wKDA方法采用各个时间点上加权的相对偏差并累加来寻找疾病的前瞻性标志信息。为验证wRDA方法的有效性,本文将其分别应用到一个动物肝病实验和一个人群肝病的代谢时间序列数据处理中,同时,结合临床时间序列数据处理的特点,兼顾样本储藏时间的影响,本文对同一时间点的不同采样时间加权,将wRDA扩展为w2RDA方法。动物时间序列代谢组学的数据分析实验结果表明,wRDA能够发现已知的重要的反映肝病不同病程的代谢物,同时所选变量能够较好的区分有病与无病、肝癌和非肝癌样本。在人群肝病的时间序列代谢数据处理中,发现筛选的特征子集中血清胆汁酸在癌前阶段具有长期升高的现象,因此本文推测胆汁酸为肝癌发生的风险因子。针对生物信息学数据具有变量维度高、样本少的特点,本文提出了一种特征选择算法ReliefF-WS,用来过滤噪声及降低维度。算法首先利用类重叠的思想对样本进行度量并赋予一定的权值,质量好的样本将获得较高的权值,质量差的样本得到较低的权值。ReliefF算法是一种快速有效的过滤式特征选择算法,将类重叠样本加权的思想应用到ReliefF算法中对其进行改进,可以降低ReliefF算法在特征权值更新过程中较差的样本带来的影响。改进后的ReliefF-WS算法和ReliefF算法在8个生物信息学公共数据集上进行比较,实验结果表明,ReliefF-WS算法较原始ReliefF能更准确地对变量进行排名。
其他文献
国内通信行业运营商在经过几次分拆和重组以及3G牌照的发放后,行业的竞争和对用户的争夺日益激烈,在如何提升服务意识、发展销售渠道和新的宣传方式等方面都面临着新的问题。
由于焦灼于自己当前音乐课堂教学的困窘局面,期待勃勃生机的音乐课堂,渴望中职音乐课堂中师生获得成长和不期而遇的意外,因急迫于给中职学生会学音乐、乐学音乐、善学音乐的
前向增益(FPG)是影响光纤陀螺检测信噪比和死区非线性效应的重要参数。从光纤陀螺物理模型出发推导FPG表达式,分析了FPG中各物理环节在空间环境下的性能变化及其对FPG的影响
“十一五”期间,我国医疗卫生服务体系建设的步伐明显加快,医疗服务能力得到全面提升,农村医疗卫生事业也得到了进一步发展,中央专项财政投入累计558.4亿元,近5万个医疗卫生机构获
本文介绍作者在北京铁路局工程处所做的重复振动对混凝土强度的影响试验及其研究结果。对成果在工程上如何应用提出了建议。
针对Android平台下游戏实时交互的特点,本文使用SurfaceView进行界面布局的构建,采用矩形碰撞检测进行算法分析,以数组、list、HashMap等进行数据的存储和更新。本文以Java多
产后缺乳是指产后哺乳期初始乳汁甚少或全无,亦称产后乳汁不行。笔者自1997~2005年针灸按摩并用治疗该病取得了满意疗效。现报告如下:
产后乳汁过少时,首先要稳定情绪,建立信心。其次要有充足的睡眠和休息。适当的户外活动,避免过度疲劳。第三要注意饮食,多吃营养丰富且易消化吸收的食物.并多喝汤水(鱼汤、肉汤都好
分子的吸收光谱,可以获得分子内部和分子间相互作用的信息,例如分子的结构、能级、跃迁矩等。随着激光技术的不断发展,吸收光谱技术也朝着高灵敏度、高分辨率方向发展。在理论研
为了解不同运动项目对中学生人格和自我意识的影响,选取羽毛球和健美操为运动干预方式,对112名中学预备年级学生进行了12周的运动干预,采用EPQ和Piers-Harris儿童自我意识量