论文部分内容阅读
在人们一直面临药物短缺的难题的情况下,耐药性现象的爆发更加剧了药物短缺情况。然而,新药研发始终面临研发成本高昂的问题。药物重定位,即发现已上市药物新的治疗活性,这一低成本药物发现方法逐渐兴起。由于药物已经进入临床阶段,药物安全问题已解决,这意味着药物重定位方法耗时短,成本低。然而,目前药物重定位中还存在诸多挑战,其中,如何通过基因构建药物疾病关系是药物重定位领域的重要研究方向之一。本文在此基础上,引入基因通路信息,通过构建药物-基因-基因通路-疾病关系,达到药物疾病关系构建的目的,从而完成药物重定位。这一研究过程中需要海量的生物实体关系数据,这类数据绝大多数以文本的形式储存。海量的文本通过人工阅读来抽提其中的生物实体关系高成本低效率。因此,使用文本挖掘方法通过计算机辅助文本中的知识抽提成为解决这一问题的重要途经。文章具体实施路线:首先,以19种典型药物重定位药物的药物名为关键词在PubMed中检索相关文献共获得303,443摘要文本,通过文本挖掘方法从文本中挖掘出含有互作关系的基因作为药物相关基因集;然后,将药物基因集富集到基因通路上得到有序的药物基因通路列表;接着,根据基因通路和疾病的直接关联信息将药物关联到疾病上,从而完成构建药物疾病关系的目标。在这一过程中的主要工作重点:1,比较了4种文本挖掘方法在本文药物发现策略上的应用效果。这4种方法分别是基于PubTator摘要共显,基于PubTator句子共显,基于PubTator句子依存树关系共显和Turku Event Extraction System 2.1(TEES)。挖掘方法的评价共两方面:一方面为文本挖掘得到的基因集在获得药物已知基因集上的准确率。4种文本挖掘方法的基因集依次计算与空白对照组基因集(KEGG数据库中人类通路中全部的基因集)在发现药物已知靶标基因集准确率上的比值,比较结果依次为:12.322,14.062,32.547和101.193,比值越大准确度越高效果越好,因此TEES方法最佳。另一个方面为比较基因通路富集结果得到的通路列表中药物已知通路的排名情况。已知药物基因通路在富集结果中排列越前,则该方法越好,结果表明TEES方法最佳。2,以药物雷帕霉素为例,进行案例分析。通过TEES方法得到雷帕霉素的活跃基因集,然后采用9种通路富集方法对活跃基因集进行基因通路富集分析,得到对应的有序基因通路列表。和CTD数据库提供的已知药物通路列表比较相似性,得到对应F值,我们设计的IPF_box方法和P值效果这三种富集方法较好。综合这三种富集结果,排名前五疾病通路乳腺癌等均由文献验证为雷帕霉素适应症。此外,我们以乳腺癌-雷帕霉素关系为案例,验证了文本挖掘具有药物疾病预测的功能。3,开发文本网络可视化工具用于本文策略得到的药物-疾病关系验证。从疾病出发通过Literature Network文本网络可视化工具构建疾病基因网络,观察药物相关基因在疾病基因网络中的情况,推理可能的药物疾病作用机制,以达到验证药物-疾病关系的目的。