基于PageRank和贝叶斯网络的信息检索方法

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:chenhonghongshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术在全球的广泛使用和移动互联网技术的快速发展,大数据时代迅速到来。信息采集和发布技术日益丰富带来了数据爆炸,互联网和智能终端用户的快速增加带来了数据需求,云计算技术提供了海量数据存储和计算的能力。信息爆炸的同时,而人的处理的能力是有限的,信息过载问题日益加重。通过信息检索系统快速准确的满足海量用户对于海量数据的海量信息需求成为大数据时代信息检索技术的重要研究内容。  传统的信息检索技术面临一个难以忽视的问题:用户的信息需求和用户查询的机内表示是不完全对等的。一般可以通过对用户查询进行语义扩展,来避免检索系统对用户查询的机械匹配。但语义扩展技术普遍存在以下难点:1)语义关系的获取比较困难;2)语义关系无法准确量化;3)语义关系数据的存储和快速计算;4)扩展词的选择不当可能引发查询漂移现象。  基于上述问题,本文提出了一种基于佩奇排名(PageRank)和贝叶斯网络的信息检索方法。该方法改善了当前的语义检索技术,使用Wikipedia和WordNet词典作为语义数据源进行语义抽取,结合语义规则进行推理,得到推理语义权重网络RSWN。本文通过贝叶斯网络来模拟人脑进行语义概念联想的过程,使用PageRank算法初始化该网络的先验概率,从概率和语义两个维度衡量概念之间的相关性,生成概率推理语义网络PRSWN。最后通过该网络提出了检索模型,并提出了语义索引技术以适应海量语义关系的存储和计算。  在本文的实验中,语义数据采用2015-07-02版的Wikipedia数据源和WordNet3.0语义词典,测试数据集选用CACM和CISI,针对MAP,P@R等指标进行了检验,与VSM,LSI和LDA方法进行比较,均有一定的提升。
其他文献
学术社交网络中关键人物挖掘算法是一种通过分析学术社交网络信息找出网络中具有代表性关键人物的算法。这类算法可以分析学术社交网络中原本容易被忽略的信息,通过挖掘其深层
随着现代烟草农业生产技术对信息技术的依赖程度越来越高,如何将信息技术应用于烟草生产过程成为了目前烟草信息化建设的研究热点和难点。众所周知,烟草病虫害的防治是保证烟草
视频监控系统作为安全防范系统的重要组成部分,在保障工业生产安全、人民生活稳定与提高社会治安方面具有重要作用。近些年来,随着计算机网络技术、多媒体技术和通信技术的飞速
学位
在科学数据处理中,数据采集是很重要,但却不被人重视的一环。IT行业的数据大多由软件系统自身产生,数据采集不是问题。但是在非IT行业的科学研究中,科学家们经常需要从社会生活或
高性能计算是国家高科技发展战略的关键组成部分,研制具有中国自主知识产权的高性能计算机对提升我国综合国力具有重要意义。高性能计算机中CC-NUIVlA系统结点内部可以实现资
学位
随着社会网络、移动应用以及传感器技术的发展和普及,数据收集的效率、规模和种类得到了很大的提高,催生了对非结构化数据的管理。由于开放环境下的非结构化数据具有海量、异构
随着计算机科学技术的迅速发展,人脸识别技术已经取得了许多重大的研究成果和突破性的技术,但是人脸识别依然是一项比较艰难的课题。人脸图像在采集过程中容易受到复杂环境的影
学术社交网络(Academic Social Networks)是学者用户在线学术交流的网络平台,学者可以方便的在该平台上和其他学者建立好友关系,发布学术动态,分享和评论其他学者的学术动态信息。