基因表达缺失数据填充算法研究

被引量 : 0次 | 上传用户:ruanjianshixi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA微阵列技术使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。但是,在基因表达数据产生过程中存在一些因素导致获得的数据中包含有大量的缺失值,为后续的数据分析工作带来了极大的困难,甚至使分析结果出现严重错误。因此,基因表达缺失数据的填充是生物数据挖掘过程中的重要预处理步骤,也是研究重点之一。 基于K个最近邻居的填充算法是基因表达数据中经典的缺失值填充算法。但算法没有考虑基因表达数据间的相关性,本文提出一种基于马氏距离的缺失值填充算法。该算法使用考虑了数据间相关性的马氏距离选择邻居基因,并利用Shannon信息熵确定更为合理的邻居基因权重系数,有效地提高了对缺失数据的填充准确度。 模糊C-均值算法是聚类分析中广泛使用的聚类方法,在基因表达数据分析中也有较多的应用。本文利用模糊C-均值算法能很好地处理数据间的重叠性和相关性的特点,将它应用到基因表达数据的缺失问题处理中,提出了基于模糊C-均值的填充算法。算法针对不同的数据集,给出了动态确定聚类参数的方法,然后对经过初始填充的非完整基因表达数据进行聚类分析,利用聚类结果对缺失数据进行估计和填充。该算法自适应地确定聚类参数,增强了聚类的有效性,从而提高了填充结果的正确率。 模糊C-均值算法受初始条件影响较大,在迭代过程中容易陷入局部极小。因此,论文在上述算法的基础上,利用迭代局部搜索策略来解决局部最优问题,并且使用新的聚类有效性指标优化聚类结果,较大程度上改善了聚类结果,提高了缺失值估计的准确度。实验结果表明填充准确度较原算法有较大的提高。
其他文献
在基础饲料中分别添加含0 mg/kg、3 mg/kg、6 mg/kg、9 mg/kg和12 mg/kg铜(羟基蛋氨酸铜形式),配制5种饲料,投喂初重10.63 g的石斑鱼42d。结果表明,3mg/kg组的WG和SGR显著高
目的探讨亚急性甲状腺炎的临床表现和诊治方法。方法对于本院在2009年6月~2013年6月间收治的36例亚急性甲状腺炎患者的临床资料进行分析。结果 36例患者的男女比例为1:3.5,患
一致性测试是网络协议验证中最为基本的部分。虽然大量的研究与实践对此问题做过深入的探讨,但是到目前为止,仍然缺乏系统、有效而实用的协议一致性测试方法。从协议一致性描
目的探讨新生儿脓疱疮的护理措施。方法对58例新生儿脓疱疮患儿的护理进行总结。结果通过加强对新生儿皮肤的清洁及积极正确的治疗,同时加强病房的消毒隔离工作,患儿的治愈率
支气管哮喘(哮喘)是常见的,严重危害健康的慢性疾病。近年来发病率及死亡率有所增加,日益受到重视。对其发病机制已有多方面的探讨,但仍有许多尚未明了。 文献表明,淋巴细胞中
<正>小儿多动症是一种好发于早产儿童的疾病,又称为脑功能障碍失调综合征。该病主要造成小儿的行为异常,表现为注意力不集中,容易情绪激动及多动等,给其日常生活和学习带来极
燃烧噪声控制是内燃机振动与噪声控制领域的一个重要的研究方向。尤其在柴油机的研究过程中更为重要。本文以朝阳柴油机厂的4102BG柴油机为具体研究对象,对燃烧噪声的预测开展
<正>辽宁省北票市中心医院神经外科2010年~2013年收治蛛网膜囊肿患者10例,其中2例术后出现腹腔并发症,现报告如下。1病例资料例1.男,42岁,以"阵发性头晕、头痛"为主诉,于2010
针对中国石油辽河石化公司常减压蒸馏装置主要加工低凝油和超稠油,生产过程存在电脱盐罐电流超高的问题,分析了影响电流超高的因素,并提出了相应的对策。结果表明,油水界位、
目的总结老年肿瘤患者行放射治疗的护理。方法 203例老年肿瘤放疗的患者,通过发放健康小册子,床头与患者沟通、交流,特别针对老年人而制作健康讲座。有针对性的给予心理护理