论文部分内容阅读
从生物医学文献中抽取潜在的生物学关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。但是,随着生物医学文献的快速增长,依靠人工阅读来获取知识是非常困难的。美国芝加哥大学情报学教授Don.R.Swanson创立的非相关文献知识发现方法可以在大量医学文献中揭示学科间隐藏联系,形成合理的假设来指导科学实践。他的知识发现方法逐渐受到人们的关注,成为研究的热点。概念检索计算简单直观,实验采用共现分析技术,对生物医学文献数据库MEDLINE中的MeSH概念进行隐含知识挖掘的研究。重点发现疾病与化学药品、药物、基因或者分子序列之间的新颖的、尚未被发现的生物学关系。实验利用三种计算方法:z分值、TFIDF(Term Frequency Inverse Document Frequency)和PMI(Pointwise MutualInformation),模拟Swanson的三组经典实验:Alzheimer’s disease(老年痴呆症)、Migraine(偏头疼)、Schizophrenia(精神分裂症)。同时使用LitLinker系统提出的评测方法,计算了各组实验结果的正确率和召回率。针对计算三种方法的不同特点,采用融合公式对发现结果重计算和重打分,进一步提高发现结果的正确率。实验发现,TFIDF方法和z分值方法在实验中分别表现出较好的正确率和召回率,融合公式可以有效提高实验结果的正确率。发现结果中包含更多有倾向性的主题,符合知识发现的期望。段落检索是针对概念检索知识发现计算数据过于分散,影响最终的排序结果,导致正确率不高这一问题提出的改进方法。针对MEDLINE摘要全文,进一步提取在完整句子中共现的MeSH概念。为了对比实验结果,本组实验采用的计算方法、计算起始词和概念检索实验一致,并且评测了实验结果的正确率和召回率。实验发现,z分值方法计算得到的结果有很高的正确率,TFIDF方法计算得到的结果有很好的召回率。使用段落检索方法找到的MeSH概念集中性较强,发现结果的正确率高于概念检索方法的结果,但是集中性导致召回率降低,减弱了对于未来的预测趋势。本文实验采用开放式发现算法,验证了Swanson的发现结果:Alzheimer’s disease(老年痴呆症)和indomethacin(消炎痛)、Migraine(偏头疼)和Magnesium(镁)、Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)的潜在关系,同时还发现了三组起始词和其他的生物学潜在关系。分析发现这些潜在关系可以辅助医学专家揭示文献中的隐性关联,引导并实现知识发现的预期目标。