基于概念和段落检索的生物医学文献知识发现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wangyaoxf520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从生物医学文献中抽取潜在的生物学关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。但是,随着生物医学文献的快速增长,依靠人工阅读来获取知识是非常困难的。美国芝加哥大学情报学教授Don.R.Swanson创立的非相关文献知识发现方法可以在大量医学文献中揭示学科间隐藏联系,形成合理的假设来指导科学实践。他的知识发现方法逐渐受到人们的关注,成为研究的热点。概念检索计算简单直观,实验采用共现分析技术,对生物医学文献数据库MEDLINE中的MeSH概念进行隐含知识挖掘的研究。重点发现疾病与化学药品、药物、基因或者分子序列之间的新颖的、尚未被发现的生物学关系。实验利用三种计算方法:z分值、TFIDF(Term Frequency Inverse Document Frequency)和PMI(Pointwise MutualInformation),模拟Swanson的三组经典实验:Alzheimer’s disease(老年痴呆症)、Migraine(偏头疼)、Schizophrenia(精神分裂症)。同时使用LitLinker系统提出的评测方法,计算了各组实验结果的正确率和召回率。针对计算三种方法的不同特点,采用融合公式对发现结果重计算和重打分,进一步提高发现结果的正确率。实验发现,TFIDF方法和z分值方法在实验中分别表现出较好的正确率和召回率,融合公式可以有效提高实验结果的正确率。发现结果中包含更多有倾向性的主题,符合知识发现的期望。段落检索是针对概念检索知识发现计算数据过于分散,影响最终的排序结果,导致正确率不高这一问题提出的改进方法。针对MEDLINE摘要全文,进一步提取在完整句子中共现的MeSH概念。为了对比实验结果,本组实验采用的计算方法、计算起始词和概念检索实验一致,并且评测了实验结果的正确率和召回率。实验发现,z分值方法计算得到的结果有很高的正确率,TFIDF方法计算得到的结果有很好的召回率。使用段落检索方法找到的MeSH概念集中性较强,发现结果的正确率高于概念检索方法的结果,但是集中性导致召回率降低,减弱了对于未来的预测趋势。本文实验采用开放式发现算法,验证了Swanson的发现结果:Alzheimer’s disease(老年痴呆症)和indomethacin(消炎痛)、Migraine(偏头疼)和Magnesium(镁)、Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)的潜在关系,同时还发现了三组起始词和其他的生物学潜在关系。分析发现这些潜在关系可以辅助医学专家揭示文献中的隐性关联,引导并实现知识发现的预期目标。
其他文献
<正>孔雀可以称得上世界上最漂亮的动物之一。用孔雀的羽毛,蘸上中国书画的墨汁,在中国宣纸上书写出漂亮的书法作品不能不说是一种奇思妙想,但是这种事情最终还是出现了。当
采用环磷酰胺诱导免疫低下小鼠模型,通过测定模型小鼠的炭粒廓清指数、吞噬指数、胸腺指数和脾指数考察白蜡虫多糖的免疫调节能力;对接种S180瘤细胞的小鼠采用口服和注射方式
突发公共事件治理是落实科学发展观、构建社会主义和谐社会的重要方面。高校学生群体中的突发事件的产生,与高校管理制度的缺陷存在着一定的因果关系。高校应构建包括组织、制
随着经济的发展以及社会的进步,电力行业也得到了明显得发展,而资产管理作为电力企业管理工作的重要部分,一直是企业领导所重点关注的内容。近年来,科学信息技术的不断发展,
在肉牛饲养过程中,粪尿的处理一直都是重大难题。因牛个体大,产生的粪尿多,粪尿中未消化充分的残余有机物含量高且同时存在固、液、气3种污染物,如不及时有效地处理,会对环境造成
近年来大量的临床资料表明,颈动脉粥样硬化与脑血管疾病有着密切关系.对住院治疗30例脑梗死患者行颈部血管彩超,了解颈动脉病变,从而探讨与脑梗死的关系.
甘肃省博物馆是中国最早成立的博物馆之一,其前身是1939年由中英庚子赔款董事会组建成立的甘肃省科学教育馆,1956年甘肃省博物馆正式成立,是目前国内规模最大的综合性地志博
本文针对带有参数线性方程组的初等行变换法和行列式法两个解法进行了比较研究,通过例证说明当参数较少且出现频率较高,优先采用行列式法;当参数较多且出现频率不高或参数只
本文运用对比语言学的理论和方法,详细阐述了汉维语颜色词的文化含义,并通过对汉维语颜色词的文化含义对比分析,寻找其相同之处和不同之处,并揭示出这种文化差异形成的原因。
随着21世纪的到来,人类社会从工业化社会迈进信息化社会,信息资源已成为重要的生产力要素和社会发展的战略资源。在信息化浪潮的推动下,图书情报也的信息服务面临着重大挑战