基于文本挖掘的基因-药物-不良反应关系网络构建研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:hijklmn123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:药物不良反应的发作机制错综复杂,不仅与药物本身有关,更与患者个体因素——基因有关。尤其随着科技发展,新药层出不穷,已有药物不良反应数据库已无法跟上更新的速度,大量与新药品有关的信息则以非结构化信息——文献的方式存储。本课题拟从不同的生物医学文献集中识别并提取基因-药物和药物-不良反应关系,进而推测基因表达与药物不良反应之间的潜在关联。  方法:从PubMed数据库下载获取药物-不良反应相关和药物-基因相关文献集合,对于药物、不良反应命名实体,采用结合多种特征,包括词法特征、领域知识特征、词典匹配特征和无监督学习特征的条件随机场模型进行识别;对于基因实体,借助已有工具和词典进行识别。识别后,对于每个在句中共同出现的药物-不良反应和药物-基因对根据其共现频次、主题词关联、关联词、是否与已知关联共现、与已知关联相似度等特征变量构建logistic回归模型,以预测得分为基础生成药物-不良反应矩阵和药物-基因矩阵,进而通过矩阵乘法获得基因-不良反应矩阵;借助网络分析和聚类分析等对三者关系进行解读验证。  结果:本课题构建了同时识别药物及其不良反应实体的模型,包括词法特征、领域知识特征、词典匹配特征和无监督学习特征,药物实体和不良反应实体在Biocreative V的测试集上F值分别为88.24%、82.99%。随后我们根据其频次、主题词关联、关联词、与已知关系共现、与已知关联相似度等变量构建logistic回归模型,用于提取药物-不良反应和药物-基因关联。应用上述模型我们分别从两个文献集合中识别并提取了9106个药物-不良反应对和7457个药物-基因对,预测到78014个潜在的基因-不良反应关联。部分预测结果可通过网络-聚类-通路分析解释,并可在文献/数据库中得到验证。  结论:通过文本挖掘方法得到的潜在基因-药物-不良反应关联并对其文献和数据库验证后发现部分关联与已有知识经验相吻合,同时也存在大量关联有待验证。本课题构建的基因-药物-不良反应网络可以为推测潜在受药物作用的基因表达与药物不良反应之间的可能关联提供参考。
其他文献
3D打印技术应用在中学学科教学中是教学改革的一大创新.目前,在大多数学校中,3D打印技术依然停留在教技术的层面上,而理想状态是把3D打印技术与学科教学相结合,提高学生的学
随着网络、移动通讯设备的发展,社交媒体已经广泛应用到档案馆的服务当中,比如微博、微信等等,而用户对档案馆所提供的这些新型服务的认可度以及用户使用的频率情况,需要通过不断
我国档案信息化建设起步较晚,目前还处在探索和建设的初级阶段,其中还存在不少问题。为使我国档案信息化建设能科学发展,我们应该对档案信息化建设中存在的问题进行深入剖析,寻找
摘要:物理学是一门以实验为基础的学科,众多的物理概念、定律以及原理来源于实验。实验不仅可以激发学生的学习兴趣,而且对初学者形成物理概念、理解巩固知识、训练实验技能、培养观察和动手能力、提高思维和解决实际问题的能力都是十分重要的,所以物理实验教学是提高物理教学质量的重要一环。本文探讨了在“教学做合一”思想指导下进行物理实验教学的具体教法,以期能给一线物理教师带来启示。  关键词:物理实验教学;“教学
本文比较分析了《中国文献编目规则》和《普通图书著录规则》在标目法方面的异同,介绍了《中国文献编目规则》第二部分《标目法》的主要特点和新增内容,指出了其中的一些不足并
通过对6种Ib型人造单晶金刚石在空气中DTA和TG曲线的分析,确定以DTA曲线的外推起始温度作为热稳定性的表征温度;继而基于灰色系统理论,提出采用灰色关联分析的量化评定方法对
随着互联网与信息技术的发展,网络社区已逐步成为人们情感交流、信息沟通和知识共享的重要平台。网络社区的成员也开始像现实社区中一样扮演不同的角色,通过群体互动、信任和
随着计算机技术的高速发展,每天都会有大量的图片产生,图像分类作为图像处理中一个热点方向也受到越来越多学者的关注。BOW词袋模型早期是用来处理文本分类的问题,因其具有简
《公是集》五十四卷宋刘敞撰,清四库全书馆抄本,佚名签批,书口题“钦定四库全书”,八行二十一字,红格白口,四周双边。刘敞,宋新喻人,字原父,世称公是先生,庆历进士。刘敞为文敏瞻,学问渊
威客商业模式,是一种将人类所创造的知识成果,通过一定的交易方法与平台进行“商品性”流通的过程,是现代社会知识经济中的一种新型商业模式。威客交易量的快速增长,带来了围绕威