基于KK-Means算法的miRNA聚类分析

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lzp16828
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量研究表明,miRNA以调控的方式参与不同的生命活动,其调控行为的异常能够对生命体产生重大影响。基于现存的两种现实状况,第一,miRNA的调控程度的差异可以对人类许多疾病产生关键影响的事实有着各种研究已证实的事实为依据,因此,利用现存已知的少量的miRNA信息来研究它们之间的共性和个性的需求是十分迫切的;第二,现存的已知的miRNA-疾病关联关系数量非常少,基于相似的疾病通常与有着相似功能的miRNA相关这一事实,通过疾病之间的相似性进行miRNA相互关系的研究成为了现代研究热点。因此,本论文主要研究了在已知的现有miRNA-疾病关联关系的基础上,结合疾病之间的相似度,构建了一个综合了疾病信息的miRNA矩阵,然后将本论文提出的KK-Means算法运用在miRNA矩阵,对miRNA进行聚类分析。本论文主要工作如下:基于K近邻的思想,利用已知的miRNA-疾病关联关系,构造了一个miRNA矩阵。由于现实中已知的miRNA-疾病关联关系的数量是相当少的,导致所得miRNA矩阵是一个稀疏的矩阵,没有携带足够多的信息。因此,结合miRNA-疾病网络所涉及的疾病之间的相似性网络,计算关联关系未知的miRNA-疾病的潜在关联度,对miRNA矩阵进行修复,使其携带更多的信息。通过对经典的K-Means算法的分析,指出该算法的不足之处,并对这些不足之处产生的原因进行了说明。然后在对现有聚类方法的基本原理进行充分的研究之后,简要说明了有效避免其不足之处的方法,并对这些方法的合理性做了说明。最后,在做了充分的分析以后,提出了新的算法,即KK-Means算法。在经过实验验证改进的K-Means算法有着更好的聚类结果以后,将其运用在miRNA矩阵上,对miRNA进行聚类。最后,为了可以更加方便的利用本论文提出的改进算法进行聚类分析,本论文对所改进的算法进行系统化设计和实现,并在系统中加入了对比算法的设计与实现。将不同聚类方法产生的结果进行可视化显示,从多个不同视角理解最终的聚类结果,加深对数据之间未知关系的理解。
其他文献
本文主要研究Lewis酸性Mg(Ⅱ)催化的醛或酮,亚胺与三甲基硅腈的硅腈化反应,主要内容分为以下三个部分:第一章综述了 Lewis酸催化醛或酮与三甲基硅腈的硅腈化反应,以及Lewis酸
目的:研究黄芪提取液对人角质形成细胞株(HaCaT细胞)促增殖作用及其可能机制,观察黄芪提取液作用下HaCaT细胞增殖及NRP-1表达,以探讨其在糖尿病足的愈合过程中可能的作用机制
同步送粉式激光熔覆技术具有制造效率高,形状限制低,自动化程度好等优势,在金属零件失效修复领域正受到越来越广泛的关注。然而该技术材料浪费严重,因此,在生产中常常采用将残余粉末同新粉混合再次应用的方式来降低生产成本。但原材料粉末在激光热作用、空气氧化等外在因素的影响下,容易发生形貌、成分、流动性等特征方面的变化,从而影响修复质量。本文以使用GH4169粉末进行多轮粉末循环激光熔覆修复为基础,分析了粉末
随着网络的发展,电子支付已经成为网络消费的主要支付方式,在给我们提供便利的同时,也不得不考虑其安全性的问题。以往针对网络支付系统的安全性管理通常都是利用网络安全产
该论文旨在以吉尔的认知负荷模型理论为指导,以形式主语句为研究对象,探究学生译员在英中同声传译过程中切分翻译单位的特征,并研究在相应翻译单位之下,减少认知负荷,提高译文质量的口译策略。事实上,学术界针对翻译单位切分的研究不占少数,但皆是从篇章层面出发,在实证研究与描述性研究中均未对研究的语篇或语篇以下语言层面进行归类。本论文借助有声思维法(TAPs),辅以试前试后问卷,和译文评价的数据分析模式,探究
戈枕断裂带是海南省西部主要的金矿成矿带,近年来主要的探矿及采矿均在-400m标高以上进行,为了拉动中深部金矿的商业性勘查,海南省国土环境资源厅委托海南省海洋地质调查研究
本论文包括两部分研究工作:1、褪黑素血药浓度测定方法的建立与评价;2、褪黑素缓释片在中国健康志愿者中药代动力学的研究。本部分新颖之处在于:1、首次报道了褪黑素缓释片在
短链脂肪酸(Short Chain Fatty Acids,SCFAs)不仅可以作为营养物质提供能量,而且作为肠道菌群和宿主之间相互作用的重要信息分子,具有调节营养物质代谢、抑制内源性胆固醇合成等广泛的生理活性和生物学效应。当肠道菌群发生紊乱时,会阻碍机体对SCFAs的吸收,进而影响机体健康,而益生乳酸菌能够通过改善肠道对SCFAs的吸收来发挥其益生作用,但机制尚不明确。因此,本文通过建立体外模拟
糖尿病是一种以代谢障碍、高血糖为特征,由遗传与环境长期共同作用所导致的全身性代谢内分泌疾病,对人类的生命与健康造成了严重影响,并且糖尿病患者的数量呈现出不断上升的
内蒙古获各琦矿床位于华北地台北缘西段的狼山地区,是至今为止内蒙古地区发现的最大的铜多金属矿床。矿区主要有三个中-大型矿床,矿体受地层层位控制明显,其矿体和矿化主要分