论文部分内容阅读
目的:药物不良反应的发作机制错综复杂,不仅与药物本身有关,更与患者个体因素——基因有关。尤其随着科技发展,新药层出不穷,已有药物不良反应数据库已无法跟上更新的速度,大量与新药品有关的信息则以非结构化信息——文献的方式存储。本课题拟从不同的生物医学文献集中识别并提取基因-药物和药物-不良反应关系,进而推测基因表达与药物不良反应之间的潜在关联。 方法:从PubMed数据库下载获取药物-不良反应相关和药物-基因相关文献集合,对于药物、不良反应命名实体,采用结合多种特征,包括词法特征、领域知识特征、词典匹配特征和无监督学习特征的条件随机场模型进行识别;对于基因实体,借助已有工具和词典进行识别。识别后,对于每个在句中共同出现的药物-不良反应和药物-基因对根据其共现频次、主题词关联、关联词、是否与已知关联共现、与已知关联相似度等特征变量构建logistic回归模型,以预测得分为基础生成药物-不良反应矩阵和药物-基因矩阵,进而通过矩阵乘法获得基因-不良反应矩阵;借助网络分析和聚类分析等对三者关系进行解读验证。 结果:本课题构建了同时识别药物及其不良反应实体的模型,包括词法特征、领域知识特征、词典匹配特征和无监督学习特征,药物实体和不良反应实体在Biocreative V的测试集上F值分别为88.24%、82.99%。随后我们根据其频次、主题词关联、关联词、与已知关系共现、与已知关联相似度等变量构建logistic回归模型,用于提取药物-不良反应和药物-基因关联。应用上述模型我们分别从两个文献集合中识别并提取了9106个药物-不良反应对和7457个药物-基因对,预测到78014个潜在的基因-不良反应关联。部分预测结果可通过网络-聚类-通路分析解释,并可在文献/数据库中得到验证。 结论:通过文本挖掘方法得到的潜在基因-药物-不良反应关联并对其文献和数据库验证后发现部分关联与已有知识经验相吻合,同时也存在大量关联有待验证。本课题构建的基因-药物-不良反应网络可以为推测潜在受药物作用的基因表达与药物不良反应之间的可能关联提供参考。