基于谱聚类方法的基因表达数据分析研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wuhuwuyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症的发病率高、死亡率高,患者的生存期短,给患者的本人、家人甚至整个社会都带来了严重的不良影响。因此肿瘤的预防和治疗是全世界生命科学研究者的研究焦点。通过样本的聚类,不仅可以根据已得到的肿瘤聚类样本对未知的聚类样本进行研究和预测,帮助医生进行肿瘤的诊断和治疗,还可以帮助找出相关的驱动基因或功能表达相似基因,进而可以发掘基因之间的调控关系,并找出有研究价值的基因,从中选出药靶、诊断靶。基因表达数据的聚类分析研究对肿瘤的预防和治疗研究有着很重要的医学意义。由于基因表达数据的高维特性,数据往往变得稀疏,样本之间的距离差距不再明显,而且冗余特征也会随之增多,导致一般的聚类算法的有效性大大降低。通过对基因表达数据进行聚类分析以提高诊断肿瘤的准确度,成为了生物信息学和医学领域的热点研究。本文主要围绕肿瘤基因表达数据的谱聚类问题进行研究,具体研究工作包括:(1)基于稀疏表示的谱聚类算法(Sparse Representation based Spectral Clustering,SRSC)将每个高维样本映射到一个低维的系数向量子空间,并利用稀疏表示系数向量构造相似度矩阵从而进行谱聚类。由于该方法存在效率低等缺点,在高维的基因表达数据聚类中存在很大的不足,针对这个问题,提出了基于协同表示的谱聚类算法(Collaborative Representation based Spectral Clustering,CRSC):首先通过协同表示对高维的基因表达数据进行降维分析,有效的保证了信息的完整性;然后采用Cosine距离对降维后的数据构建相似度矩阵;最后采用谱聚类算法进行对相似度矩阵进行聚类分析。通过多种评价标准的对比,表明该算法在时间复杂度和聚类准确率上都有较强的鲁棒性。(2)当样本数量很大,SRSC算法在求解稀疏表示系数的过程非常耗时,针对这个问题,结合传统的主成分分析优势,提出了基于主成分分析的谱聚类算法(Principal Component Analysis based Spectral Clustering,PCASC):首先使用主成分分析对基因表达数据进行降维分析;然后采用Cosine距离对降维后的数据构建相似度矩阵;最后采用谱聚类算法进行对相似度矩阵进行聚类分析。通过实验对比分析,该算法在准确率和运行速率上都优于SRSC,更适用于分析大规模的基因表达谱数据。
其他文献
自18世纪工业革命以来,工业发展推动了各国现代经济的加速增长,并呈现出一定的规律性特征。未来我国要避免工业在经济中的比重过快下降,突破“技术升级陷阱”是关键所在。一
腰椎间盘突出症,在治疗前,由于局部水肿、粘连,以常规的手法及牵引治疗,往往疗程较长,不能达到预期的目的。本科在治疗此类患者的过程中,前期应用桂枝加葛根加味汤治疗,后期配合牵引
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
新课程改革的不断推进,导致我国高中物理教学内容及目标都发生不同程度的改变。在这样的背景下,学生在学习高中物理知识过程中,需要进一步优化学习策略及解题思路。以高中物
从飞行器的总体、气动、结构、系统、制造和试验等几个方面,讨论雷达隐身技术要求对飞行器设计、制造、成本等带来的挑战。
目的:探讨早期预防性应用枸橼酸咖啡因对极低出生体重儿近期并发症及肺功能的影响,并评估其安全性。方法:选取2016年8月-2017年5月郑州大学第三附属医院收治的早产儿125例。
本文运用语料库的研究方法,对南京农业大学英语语言文学专业本科生在毕业论文中连接副词的使用和英语本族语者在相应的语言学,应用语言学,文学,翻译等方面的论文中连接副词的使用
我们汉民族最早的服装是‘衣’和‘裳’,即上衣、下裳。上身穿的称‘衣’。其形制是‘交领右衽’。衽就是衣襟,即衣服的两旁掩合处。它原是可左可右的,但汉民族长期以来是以
期刊
文章通过对农业生产中发展农机专业合作社的实践进行了解,通过积累的经验,对农机专业合作社的发展中的相关优势和发展中存在的问题进行积极的分析研究,提出了如何更好地发展
美国研究最新公布的研究成果表明,广泛应用于更年期女性的激素疗法可能加速脑萎缩。相关研究由韦克福雷斯特大学浸信会医疗中心专家主持。