论文部分内容阅读
近年来疾病相关研究备受关注,其中疾病数据库整合、疾病相似度、疾病本体与基因本体术语关联是目前的研究热点。疾病数据库中的疾病术语描述不一致增加了疾病数据库整合的难度;疾病关联的多样性是计算疾病相似度面临的挑战。用定量的方法衡量文献中的术语关联是挖掘跨本体术语关联亟需解决的难题。本文针对疾病研究中所存在的这些困难进行了深入的探讨和研究,其主要内容如下:(1)提出了基于疾病本体的疾病数据库整合方法。疾病相关的数据库众多,其中每个数据库都记录着疾病与一两种特征之间的关联,且它们之间缺乏交互,无法为疾病提供统一的视图。本文根据疾病术语之间的同义词关系以及本体中存在的集合包含关系,将疾病数据库中的疾病术语分别以同义词映射以及推理映射的方式映射到到疾病本体的术语上,从而整合了不同疾病数据库中的疾病术语。按疾病特征类型将疾病数据库分类,将疾病数据库中的疾病特征映射到该特征所通用的标识符,并按疾病特征类型合并相同记录,去除冗余数据。基于集成的疾病数据库,挖掘了疾病之间的关联以及特征之间的关联。(2)提出了基于基因关联网络的疾病相似度算法。基于基因之间的关联计算疾病相似度是当前疾病相似度方法的研究热点。基因之间的关联方式有很多种,但是目前的方法都仅考虑了基因之间的一两种关联。本文首先将疾病的相似度转换为疾病相关的基因集之间的关联分值,然后基于综合的加权的人类基因关联网络设计算法。该算法首先将加权的人类基因关联网络标准化,再根据基因对的关联权值计算基因集之间的关联分值。通过从文献中搜集相似的疾病对作为基准集,对疾病相似度算法的性能进行了有效的评价,证实了基于基因关联网络的疾病相似度算法优于已有的其他算法。(3)提出了集成语义与基因关联的疾病相似度算法。综合的加权的人类基因关联网络可用于衡量疾病相关的基因集之间的关联分值;疾病术语对、以及它们在疾病本体中的共同祖先相关的基因数可用于计算疾病术语的语义关联分值。这两类关联分值的乘积被用于计算集成的疾病相似度。本文的研究证明,该算法适用于假设“相似的药物通常可以治疗相似的疾病”。同时,本文基于该假设实现了疾病相似度系统,挖掘了疾病的潜在治疗药物。(4)提出了基于文献的跨本体术语关联算法。当前的基于文献的术语关联方法仅通过术语出现的文献数目来衡量跨本体术语之间的关联,这不利于发现通过语义关联建立起的跨本体术语关联。本文利用本体中术语的语义关联扩展术语与文献之间的关联,并基于扩展的关联设计算法计算跨本体术语之间的关联分值。本文将该算法应用于挖掘基因本体和疾病本体的术语关联,取得了良好效果。