Web信息检索中的概念相似度研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:ywg005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的急增,Web信息检索将扮演着越发重要的角色,如何提高信息检索的效率也随之成为研究热点。而在信息检索领域中,概念相似度计算起着很重要的作用,提高概念相似度的精度对提高信息检索的效率具有重要的理论与实际意义。目前,在信息检索领域中,概念相似度的计算大多都是基于概念的表面进行比较,参与比较的只有外在的表现形式,缺乏内在的涵义,这使得概念相似度精度的提高成为一个瓶颈。而语义Web中的本体能够描述信息的涵义,就为解决上述瓶颈提供了新的技术思路。因而本文就围绕着基于本体如何提高概念相似度精度的问题展开,并对现有的底层概念相似度、上层概念相似度的计算方法中存在的问题进行了改进。本文针对现有概念相似度方法大多局限于概念某一层面信息,不能完全反映概念相似程度的不足,在对概念的字面、语义、语用相似度计算方法改进的基础上,提出了综合多层面信息的计算方法,并利用此方法计算了本体底层概念相似度,通过与人类主观判断结果比较,验证了该算法能有效地提高底层概念相似度精度。根据本体底层概念不同于上层概念、底层概念相对上层概念涵义清晰的特性,本文在分析了其它计算上层概念相似度方法的不足之后,引入概念层次深度差和实例个数差两个系数,提出了基于底层概念自底向上计算上层概念相似度的方法,结果与经典的联合概率统计方法的计算结果进行比较,表明了该算法不仅能提高上层概念相似度精度,而且能够较精确地计算出本体间的相似度。最后,基于本文算法,提出了一个基于本体的信息检索原型,并对原型中各模块进行了功能描述。
其他文献
分形理论是近二、三十年才发展起来的一门新的学科,主要描述自然界和非线性系统中不光滑和不规则的几何形体。自然界中种类繁多的植物虽然形态千差万别,却大都具有自我相似、
Cache通过解决高速处理器和低速主存之间的匹配问题,提高了计算机系统的性能。但是高性能Cache本身也消耗了处理器的大部分能量。高端处理器的温度不断升高,需要低功耗解决方
目前,工业控制组态软件行业化是控制领域发展的一个重要方向,而应用嵌入式解决方案也是发展的必然趋势,同时,嵌入式系统接入Internet的问题也显得越来越重要,因此,基于嵌入式
根据企业诊断的学科特点,结合企业对信息系统不断增长的更加智能化、理性的要求,本文采用智能体Agent技术和本体论,对企业诊断系统模型进行建模分析和信息交互方面的研究。
随着互联网技术的飞速发展,微博已成为一种应用比较广泛的社交媒体。微博相对开放的自媒体传播特征,使得人们可以自由的表达观点,微博已成为人们发布信息和获取信息的主要载
随着移动设备的普及和性能的不断提高,其运行的应用程序日趋多样化。同时Java作为跨平台、面向对象的语言而受到青睐。开放式运行平台(ORP,Open Runtime Platform)是一个高性能
随着互联网与多媒体技术的迅猛发展,数据信息也飞速增长,这使得图像检索技术倍受关注。基于内容的图像检索直接利用图像的视觉特征进行检索,能有效地提高检索的速度和效率,为
随着基因组测序技术的不断发展,生物序列数据库规模持续以每10个月翻一番的速度快速增长,当前全基因组序列分析软件流水线的性能已无法满足基因组序列数据处理的时效性需求。
嵌入式计算机系统的诞生,标志着计算机进入了通用计算机系统与嵌入式计算机系统两大分支并行发展的时代,从而导致20世纪末计算机的高速发展时期。后PC时代的两大发明:嵌入式
随着信息技术尤其是计算机网络技术的不断发展,信息技术在现代教育活动中的应用越来越广泛和深入,远程教学模式因其固有的诸多优势正在全球范围内蓬勃发展,在充分利用目前我