论文部分内容阅读
随着生物技术的迅猛发展,生物医学信息量呈爆炸性增长。生物医学文献作为展示学术成果的主要方式之一,其数目之大、增长速度之快远远超过了其他学科领域。面对数目巨大且快速增长的文献,研究者如果仅依赖手工的方式获取文献信息,完全跟踪其研究领域几乎是不可能的,甚至是一个特定的主题也难以做到。因此,一个能自动从海量文献中找到重要信息的文献挖掘系统,成为了生物医学研究者在研究工作中必不可少的工具之一。本文以生化网络为主题,对文献挖掘中的一些关键的方法进行了研究,主要的研究工作包括:1.针对目前已出现的具有特定一项功能的众多文献挖掘工具,本文给出了一种面向生物医学文献挖掘的通用系统设计方案——BNLitMiner系统方案,并通过对一些关键算法的研究与应用集成系统的开发实现了这一系统方案。集成系统基于J2EE构架,具有较强的鲁棒性、可扩展性、可移植性。2.针对传统的贝叶斯方法在生物医学文献挖掘应用中偏向于较长文档这一不足之处,通过引入文档长度因子,提出了一种改进的贝叶斯算法(LRABIB)。实验结果与分析表明:相对于一般的贝叶斯方法,LRABIB提高了文献的查全率和查准率,同时减少了算法执行时间。3.在生物医学文献自动分类过程中将基因本体(Gene Ontology, GO)信息引入到支持向量机(Support Vector Machine,SVM)分类模型中,提出了GO-SVM算法。实验结果表明,GO-SVM算法相对于传统的SVM分类具有较高的综合指数F-Score。应用文献挖掘的方法来获取生物医学知识,不仅仅具有巨大的理论价值,还具有广阔的前景。本文针对生化网络这一主题,对文献挖掘的一些关键的方法及应用系统集成做了一些初步的研究工作,将更多现有的生物学知识引入到生物医学文献挖掘的中进一步完善现有工作是我们未来的方向。