矩阵分解理论在基因表达谱数据中的应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:gxmvsgxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肿瘤类型的识别一直是生物医学的研究重点和难点,传统方法是凭借医务人员的经验,通过观察患者的病变组织的特征以实现肿瘤类型的诊断,进而进行相应的治疗,然而这种诊断方法的缺点有判断的主观性和治疗的滞后性,即肿瘤患者的诊断发现通常在中晚期。因此,如何避免其不足已成为医学与生物信息学的热点研究,近年来,随着DNA微阵列技术的发展,运用不同条件下的基因表达水平——基因表达谱,来预测和诊断肿瘤是否发生以及识别肿瘤类型,从而在分子水平上观察肿瘤的发生、发展机制,找出不同肿瘤对应的病变基因,使之获取初期病变组织的肿瘤预测和治疗靶点。本文基于矩阵分解理论,对肿瘤基因表达谱数据进行了研究,将经典的与最新的矩阵分解方法引入到基因表达谱数据分析中,结合图论知识,从而让无结构信息的数字序列转变成具有结构信息的图结构,其主要研究了肿瘤基因表达谱数据的特征提取及类型的识别,并对实验结果给出了解释和算法性能的分析。内容如下:1.利用经典矩阵分解方法对肿瘤基因表达谱数据进行了分析,以肿瘤样本作为高维空间中的点,运用不同度量相似度的赋权方案构图,使之形成具有结构信息的图结构(其描述为矩阵形式),进而对其矩阵分解获取表征每个样本的特征信息,结合支持向量机(SVM)和K近邻(KNN)分类器完成了多组公开基因表达谱数据集的分类实验,并对结果进行了分析。2.根据近年来提出的非负矩阵理论,将其用于肿瘤基因表达谱数据的特征提取,首先粗略消除高维基因表达谱数据的噪声基因,将得到的基因子集进行非负矩阵分解(NMF),将高维空间中的肿瘤样本映射到一个低维空间,进一步消除了基因表达谱数据中冗余信息,再运用模糊C均值聚类(FCM)算法实现了两组基因表达谱数据集的聚类实验,实验结果验证了该方法的有效性。3.由于许多传统记分准则中包含了基因表达谱数据的一阶信息(均值)和二阶信息(方差),导致这些准则易受异常值影响(由环境、设备和人为操作等因素产生),导致对单个基因分类重要性打分偏离客观现实,以至于选取的特征基因子集来表征肿瘤样本不够合理而出现肿瘤类型识别错误。针对该不足,本文提出了基于点的代数连通强度(ACSP)和记分准则的特征基因选取方法,利用ACSP对单个基因进行预处理以获取更加可信的表达水平,再利用传统记分准则选取特征基因子集,通过SVM分类器对两组数据集的实验,其结果表明选取的特征基因更有效、更具客观性。
其他文献
我国刑法第二十条规定:"为了使国家、公共利益、本人或者他人的人身、财产和其他权得免受正在进行的不法侵害而采取的制止不法侵害的行为,对不法侵害人造成损害的,属于正当防
草兔几年来,在承德市发生普遍,早春、晚秋和冬季是危害高峰,幼林地、苗圃和新建果园,危害尤为严重,严重地块高达45%。通过在四县一区的38个村,连片围栏、单株围网、无纺布缠
目的:探讨甲状腺良恶性肿瘤组织中BRAF基因点突变情况及分析其在甲状腺乳头状癌(Papillary Thyroid Carcinoma,PTC)中BRAF基因突变与临床病理学特征之间的关系。方法:应用聚
字幕翻译作为翻译的一种新型领域有着至关重要的作用,既能让我们国家的影片走向世界,又能更好的去理解和欣赏从外引进的各国影片。以翻译目的论为主要翻译原则,结合正确的翻
食管癌是发生于食道的恶性肿瘤,属于上皮组织肿瘤,好发于食道的狭窄部位。中国又是食管癌的高发国家,每年新增病例超过30万,食管癌的好发年龄为40至50岁,男性多于女性。食管
在《滑坡防治工程勘察规范》中,瑞典条分法作为滑坡稳定性评价的主要方法之一.而瑞典条分法作为一种简化的计算方法,在工程实际中应用中可能会得出失真的安全系数,其滑坡稳定
【正】十一届三中全会以来,随着改革开放的深入,在我国,对现代西方哲学的研究也进入了一个新的阶段.但是也出现了两种错误的倾向:一是认为马克思主义产生以前的西方哲学还有
伴随着世界经济格局的变化以及我国社会主义现代化道路的不断深化,创建全国文明城市已经成为体现一个城市政府的管理能力和综合竞争能力的标志。因为我国现在处于转变政府职
目的:通过回顾性整理分析我院收治的骨血管瘤病例,探讨骨血管瘤的发病特点和诊疗现状。方法:收集我院骨科2000年1月1日至2011年12月31日收治的经病理证实的骨血管瘤病例共22例,
<正> 贵州麻山地区位于望谟、紫云、罗甸、长顺、惠水五县接壤处,居住着近30万人。岩山面积占70%以上,丘陵地占20%左右。地形破碎,山石嶙峋,水源奇缺,自然环境十分恶劣。“满山