论文部分内容阅读
随着互联网技术在全球的广泛使用和移动互联网技术的快速发展,大数据时代迅速到来。信息采集和发布技术日益丰富带来了数据爆炸,互联网和智能终端用户的快速增加带来了数据需求,云计算技术提供了海量数据存储和计算的能力。信息爆炸的同时,而人的处理的能力是有限的,信息过载问题日益加重。通过信息检索系统快速准确的满足海量用户对于海量数据的海量信息需求成为大数据时代信息检索技术的重要研究内容。 传统的信息检索技术面临一个难以忽视的问题:用户的信息需求和用户查询的机内表示是不完全对等的。一般可以通过对用户查询进行语义扩展,来避免检索系统对用户查询的机械匹配。但语义扩展技术普遍存在以下难点:1)语义关系的获取比较困难;2)语义关系无法准确量化;3)语义关系数据的存储和快速计算;4)扩展词的选择不当可能引发查询漂移现象。 基于上述问题,本文提出了一种基于佩奇排名(PageRank)和贝叶斯网络的信息检索方法。该方法改善了当前的语义检索技术,使用Wikipedia和WordNet词典作为语义数据源进行语义抽取,结合语义规则进行推理,得到推理语义权重网络RSWN。本文通过贝叶斯网络来模拟人脑进行语义概念联想的过程,使用PageRank算法初始化该网络的先验概率,从概率和语义两个维度衡量概念之间的相关性,生成概率推理语义网络PRSWN。最后通过该网络提出了检索模型,并提出了语义索引技术以适应海量语义关系的存储和计算。 在本文的实验中,语义数据采用2015-07-02版的Wikipedia数据源和WordNet3.0语义词典,测试数据集选用CACM和CISI,针对MAP,P@R等指标进行了检验,与VSM,LSI和LDA方法进行比较,均有一定的提升。