论文部分内容阅读
贝叶斯网络是以统计学为基础,是数据挖掘技术的一种方法。本质上贝叶斯网络是一个有向无循环的图表模型,直观地表述了多个变量之间的依赖关系。它通过一个有向无循环图来描述各个节点之间的因果关系,通过一个条件概率分布表来描述各个节点之间的关系密切程度。并且,贝叶斯网络可以有效地把先验知识和现有数据结合起来,使得网络的推理结果更加的合理。特别是在当前数据较少或者较难获得的情况下,贝叶斯网络的这一优点更加明显。现在随着因特网技术的迅速发展,因特网上的信息成几何级数增长,传统的信息检索服务已不能满足用户的检索需求,因此智能信息检索成为重要的研究课题。影响一个检索系统的性能有很多因素,最关键的还是信息检索的模型。信息检索的模型的效率决定了整个信息检索效果。本文从介绍了信息检索的三类数学模型——集合模型、代数模型和概率模型着手,对这三类信息检索模型的检索效果进行了分析。并分析了利用贝叶斯网络来进行信息检索的几个优势:贝叶斯网络方法有坚实的理论基础;贝叶斯网络有成熟的概率推理算法和开发软件;贝叶斯网络更适合于信息检索模型;贝叶斯网络具有很强的学习能力。同时结合信息检索本身的特点,本文在推理网络模型的基础上设计了一个贝叶斯网络模型。并对信息检索中的贝叶斯网络模型做了若干改进,通过对贝叶斯模型中的概率进行限定,由此简化了计算的工作量。同时由于用户在输入查询关键词的时候,往往由于自身的种种原因,而不够准确、细致,这时会严重的影响到信息检索的结果。为了解决这个问题,本文在再次基于贝叶斯网络、利用关联规则挖掘的方法对检索词进行了扩展,这样可以有效地解决用户输入的查询关键词不准确的问题。本文最后通过实验在查全率和查准率上对我们提出的信息检索模型和其他三种传统的信息检索模型做了比较,结果证明我们提出的信息检索模型是十分有效的。