基于文献轮廓的疾病相关基因的功能分析

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:axiaaawei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
寻找一种通过文本挖掘获取医学文献中的有益信息进而用于解释生物数据的方法。本文以非小细胞肺癌相关基因为研究主题,通过文献轮廓的方法,对与非小细胞肺癌特定基因相关的医学文献进行挖掘分析,从而发现基因之间的共性和个性关系,基本实现发现基因与疾病之间联系的目的,并对结果的有效性进行评价。材料与方法通过PubMed数据库,以TextWord(题名词和文摘词)中包含43种非小细胞肺癌相关基因的官方名称、缩写或别名的条目来获取基因的相关文献集合,基因命名的信息从人类基因命名委员会(HGNC)的网站和NCBI的Gene网站上获取。检索时间为1963年到2009年9月23日,获得43个NSCLC相关基因文献集,将检索结果保存为XML格式,作为文本挖掘样本。本研究应用BICOMB,分别分析43个基因文献集合中每个文献集主题词的频次、百分比指标。然后,根据高频、低频词分界临界值公式,分别提取出超过一定阈值的高频主题词,并且至少有两个基因中出现的主题词才保留下来,以此为基础生成43 x 163的基因/主题词关联矩阵,再通过Cluster软件的系统聚类算法进行聚类分析。结果聚类结果将NSCLC 43种相关基因分成6类。通过阅读原始文献中有关各基因作用的内容进行比较,验证聚类结果的有效性。聚类结果中与NSCLC相关的43种基因中有35种有文献证据支持,聚类结果与文献内容相符的符合率为81.4%。结论通过对相关文献进行挖掘分析,可以获取文献中有关主题的有益信息。1、用基于文献轮廓的分析方法表现基因与疾病之间的潜在联系是切实可行的;2、根据高频、低频词分界临界值公式对主题词进行精细分类和调整,有利于对疾病与基因关系的全面了解。3、应用文献轮廓的方法,从主题词的角度,提取基因并进行分类,可为疾病差异表达基因的筛选提供参考,挖掘深度越大,所表达的知识越丰富。
其他文献
行程开关又称位置开关或限位开关,是一种常用的小电流主令电器,主要用于控制机械设备的行程及限位保护。在实际生产中,将行程开关安装在预先安排的位置,当装于生产机械运动部
目前临床应用的传统化学疗法治疗癌症具有不同程度的毒副作用,肿瘤细胞也会形成对多种化学药物的抗性而降低疗效。抗癌肽是一类新型的天然来源的多肽药物,最早发现存在于动物
矿产资源型产业作为基础性产业,具有较强的纵向延伸性和横向关联性。本文以我国4大类矿种8个矿产资源型产业为研究对象,依据22个资源型产业及其相关产业技术创新基础数据,运
该公司有两条5000t/d生产线,一线篦冷机投产后冷却效果一直不理想,出篦冷机熟料温度高达200℃,二线篦冷机在设计时优化工艺配置,熟料温度基本在100-150℃左右。对一线冷却效
集装箱多式联运是货物运输的重要形式.本文在分析铁路集装箱多式联运发展现状及其网络建设的基础上,从运输价格、运输时效、联运机制、联运设施等4个方面阐述我国铁路集装箱
目的分析寒区官兵功能性腹胀(FAB)的发病率,及其与肠道菌群失调的关系,为该病的卫勤保障提供参考依据。方法选取500例东北地区北纬45°~50°驻军官兵作为研究对象,应用成人功
文章首先概述了现浇模板施工技术的内涵,然后阐述了建筑工程施工前期准备工作,最后重点对现浇梁板模板项目工程施工技术的要点进行了详细分析,以供参考。
<正>很多人有每天记日记的习惯,把自己的伤心、快乐、激动、痛苦、沮丧等都写进日记里,其实写日记就是一种情绪表达方式。已有研究表明,情绪抑制对于人的心身健康有不利影响,
中国经济自2012年以来,在国际市场需求结构的变化以及供给侧结构性失衡问题的双重压力下,进入了中高速发展的“新常态”,在此背景下,出口总额虽然仍居世界第一,但是增长动力
研究背景 肝癌是消化系统最常见恶性肿瘤,我国是世界上肝癌高发区之一,肝癌由于起病比较隐匿,发现时往往已处于晚期。近几年由于AFP及B超、CT检查在临床应用的普及,早期发现肝