私有信息检索算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jiandande
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的广泛应用,公共可访问的数据库和搜索引擎是用户获取最新信息的重要资源。但是,由于传统的私有信息检索模型本身存在的不足,很难应用于实际的大型数据库和搜索引擎中。因此,研究新的、实用的私有信息检索模型及算法具有重要的意义。通过对现有的私有信息检索系统以及基于词语语义相似度的私有信息检索系统的功能要求进行分析,给出了一个基于词语语义相似度的私有信息检索模型。对模型中的词语语义相似度计算、伪造关键字的选择策略、查询信息隐藏和查询结果过滤进行了相关的分析,设计了私有信息检索系统的总体架构。系统架构包括词语语义相似度计算模块、查询处理模块和页面抓取过滤模块。给出了基于WordNet和HowNet的词语语义相似度计算的算法实现。在已有的基于WordNet的词语语义相似度计算算法的基础上,引入节点深度的影响因素。然后将基于WordNet的词语语义相似度的计算算法应用于HowNet的义原相似度计算中。实验表明,改进算法的相似度计算结果更精确,更符合人们日常的语义习惯。给出了基于词语语义相似度的私有信息检索算法。其中伪造关键字的选择标准是算法的关键之处。该算法选择词语语义相似度作为伪造关键字的选择标准,要求伪造关键字与目标关键字的语义相似度满足一定的条件。该算法的时间复杂度是O (k),其中k表示伪造关键字的个数。实验表明,基于词语语义相似度的私有信息检索模型同GooPir模型相比,查询结果质量有一定的提高,信息熵有所下降,但降幅不大。
其他文献
随着计算机技术和信息处理技术的不断发展,离散小波变换凭借着良好的时域特性和局部特性,逐步成为了图像压缩技术的核心算法。针对小波变换Mallat算法复杂度高、访存次数多、占
基于IEEE 802.11标准的无线局域网络(Wireless Local Area Network, WLAN)使用免执照的无线频带进行通信,由于其支持用户的移动性、部署灵活、可伸缩性强、维护成本低等优点
近年来,无线通信技术、嵌入式计算技术、传感器技术和微机电系统的飞速发展和日益成熟,推进了无线传感器网络的快速发展。无线传感器网络由低成本、低能耗、多功能的微型传感
在生物学领域根据氨基酸序列预测蛋白质结构是一个复杂而具有挑战性的问题。遗传退火算法是结合遗传算法和退火算法的优点而形成的一种新算法。它克服了遗传算法早熟早收敛、
物联网(Internet of Things,IOT)运用各种传感技术,并融合互联网,建立起“物”与“物”之间的相互感知,实现对单粒度物品的跟踪、控制及定位。目前其资源发现主要依赖于对象名称解
社会信息化程度的急速发展,使得数据正成几何级的数量爆炸性的产生,从而对存储提出的更高、更多的要求。虽然现在磁盘存储容量在不断的增加,但面对爆炸性的数据增长,本地磁盘
随着计算机软件、硬件和网络技术的日新月异的发展,越来越多的人应用计算机获得信息,人类已经进入一个高速发展的信息化时代,人们通过计算机获得的信息量非常巨大。这些信息
分类问题,作为人类的基本社会活动,在人们的日常生活和任务学习中,扮演着重要角色。随着数据挖掘和模式识别技术的快速发展,利用机器学习和模式识别技术对数据进行分析处理,
共享缓存结构加速了核与核之间的通讯速度,在多核处理器中有着重要作用。然而,多个核竞争使用共享缓存,互相污染对方的缓存数据,降低了系统的整体性能。为了解决这个问题,研究者提
软件即服务(SaaS)是近年来IT业备受关注的一个概念,它是一种基于互联网提供软件服务的软件布局模型,是创新的软件应用模式,具有初始投入少、易于控制成本、见效快、无需后期