论文部分内容阅读
生物信息学作为一门跨学科领域,简单来说就是希望通过信息技术领域的成果来解决生物学领域待解决的问题。在生物医学工作者在日常科研工作中,当他们需要对与基因相关的疾病进行研究时,往往需要对已有的大量文献进行检索,找出基因和疾病之间的相关关系,从而能够推进科研工作的进展。 本文正是在这个场景下,基于信息抽取技术,从实际的生物医学文档中,抽取出特定基因和特定疾病之间存在关系的证据,并通过从上下文中提取特征,利用支持向量机对提取到的基因和疾病之间的关系进行真伪判定。继而,利用这些关系就可以形成了针对特定疾病的相关基因分布,用来判定与特定疾病相关的基因,并根据它们共同出现的频率,给出相关基因的可信度。根据实验,其给出的结果准确率达到了近80% 同时,利用类似的方法从文献中提取出基因和基因之间的关系,并利用关系建立起一个基因之间相互作用的关系网络。然后再利用与某一疾病相关的一系列基因作为种子基因,来从这个相互作用的关系网络中,找出其他可能与这个疾病相关的基因,从而为相关的生物医学研究提供启发。根据实际实验结果,其中包含了种子基因、非种子的疾病相关基因和联想基因,既保证了结果的相关性,又表现出了对于未知基因的预测性。