语义检索技术研究及维吾尔文语义检索模型构建

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:ankang1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息的指数级增长,使得搜索引擎成为互联网上最广泛的应用。随着用户对检索结果要求的提高,搜索技术面临着越来越严峻的挑战。语义Web的发展,为提高搜索技术指明了新方向。语义Web作为互联网的发展趋向,其文档包含的语义信息为数据的智能化处理提供了基础。研究语义检索关键技术,并将其应用到搜索引擎中,可有效改善检索效果,提高检索结果的查准率和查全率。   维吾尔文语义检索研究尚处于初级阶段,针对目前维吾尔文搜索引擎缺乏语义信息的问题,根据维吾尔文构词特点和语言特性,提出了一种语义增强型维吾尔文信息检索模型。该模型由知识库管理模块、语义标注模块、语义索引模块、查询分析模块以及结果排序模块构成。首先对维文单词进行词干提取,并将网页信息以三元组形式进行存储,形成维文网页知识库,然后通过计算文档与本体概念的相似度以及概念之间关系的相似度实现文档内容与本体概念的映射。将语义实体与网页之间的关联以倒排索引形式进行存储,并通过扩展用户输入和分析词间关系实现查询目标分析,最后通过计算用户查询与文档内容匹配度和关系相似度实现结果排序。   本研究主要包括如下四方面内容和研究成果:   (1)研究语义检索模型框架:传统搜索模型不完全适用于语义检索,研究基于语义Web的语义检索模型框架可改善传统搜索引擎的搜索效果,并为构建基于语义Web的下一代搜索引擎提供基础。通过本体等知识库对文档的语义标注,语义搜索引擎可以对文档中包含的语义信息进行查询和推理。本研究结合维吾尔文语法特点,研究适用于少数民族语言文字的语义检索技术框架,构建适用于新疆地区小语种的语义搜索引擎。   (2)文档与本体映射方法:文档——本体映射是语义检索技术的重要组成部分,它将文档表示为机器可运行的形式,是基于语义的信息处理、信息检索的基础。通过研究文档与本体映射中的特征词(概念、属性等)选取,本体映射中的概念、属性对选择和相似度计算方法,以及映射过程中实例与本体概念、属性的相似度计算方法,实现文档与本体知识库的映射过程。   (3)语义相似度计算方法:语义相似度计算方法的优劣决定着语义搜索引擎返回结果的好坏。本文在结合维吾尔文语法特征的基础上提出了一种基于上下文的非监督语义相似度计算方法,对于计算相似度的一组词,提取其上下文信息构成上下文向量,并根据特征相似度计算方法计算它们的相似度,该方法不需要耗费大量的人力标注成本,同时考虑了网页入链、出链信息对相似度计算产生的影响。   (4)查询目标分析与结果排序算法:查询目标分析是度量查询关键字与本体概念相似程度的过程,过去的研究方法主要用于判断查询词与本体概念的匹配程度,本文在此基础上同时考虑了查询词之间的词义关系,以及查询词匹配到的多个本体概念之间的语义关系来对用户查询进行分析。对于查询返回的搜索结果,由于在对网页进行语义标注和构建语义索引时已经考虑了概念之间的关系,因此搜索结果排序将概念间的关联关系作为排序依据;对于知识库未覆盖词汇,采用TF/IDF方法作为补充,采用一种可调节的结果排序算法对搜索结果进行排序。对排序返回的搜索结果,采用文档摘要作为输入,通过向量空间模型和奇异值分解等方式产生聚类标签,对搜索结果进行聚类。从而将返回的搜索结果聚集到几个具有意义的标签下,增强了模型的易用性。
其他文献
近年来,随着信息化与数字化的发展,广告业也有了天翻地覆的变化。而随着互联网的愈发普及,网络广告已经成为了广告业中的重要主体。通过传统的静态投放方式,巨大的投放费用无法换
目前,在儿童的教育方面过于偏重分数,普遍存在素质教育缺失的问题。大多数的儿童都是独生子女,与他人的协作沟通能力欠缺,可能导致将来难以融入社会。而音乐教育尤其是合奏教育,对
随着“互联网+”概念的提出,社会网络势必将渗透人们生活工作中的点点滴滴,与此同时,社会网络中的信息复杂度也将膨胀式增长。如何评判社会网络中用户的行为,从复杂网络中对行为
近年来,随着无线通信技术的迅速发展,车载自组织网络(Vehicular Ad-hoc Network,简称VANET)逐渐成为一个重要的研究领域,受到学术界和工业界的瞩目,基于车载网可以开发多种应用如
化学反应启发式优化算法(Chemical Reaction Optimization,CRO)是近年来提出的一种新型演化算法。其已在诸多领域展示了解决NP完全问题的强大能力。本文以化学反应优化算法这
大屏幕交互在会议、演讲、火车站、博物馆等场合扮演着很重要的角色,在这些不同于以往桌面交互的新交互场景中,用户多需要站在一定距离之外与大屏幕交互,整个交互过程没有支撑平
机器学习在多个领域得到广泛应用。随着计算能力的提高,使得贝叶斯网络这种学习方法成为研究的热点。生成式概率图模型是贝叶斯网络的特例。所谓的生成式模型是指其网络结构提
随着互连网从传统PC蔓延到移动领域,海量信息数据存储技术也得到了快速发展,其中,Hadoop云计算平台技术是许多企业处理大数据的首选。Hadoop平台的优势在于大数据的分析处理以及
随着计算技术的进步、硬件水平的不断提高,以及互联网的广泛应用,软件已经摆脱传统的固定的输入输出模式,交互式系统日益多样和复杂。传统的界面由于缺乏主动满足多种用户需求(如
目标跟踪在运动目标的视觉分析中占有重要的地位,属于视觉的中层部分。目标跟踪是通过对摄像机所拍摄的视频图像序列进行处理,找出连续图像帧间的对应关系,实现对图像和图像