基于关键字检索的XML数据源选择

被引量 : 0次 | 上传用户:iflytekmilk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键字检索由于其对用户友好的特点在信息检索领域得到了广泛的应用,用户不需要学习数据源底层的结构信息及繁琐的查询语言,如SQL、XPath等,提出相关的关键字就能查询到所需要的信息。XML由于其结构的灵活特性,很快成为了数据交换及数据存储的事实标准,主流的数据库如oracle,db2等均提供了xml数据的存储管理,开源社区也在xml数据库方面提供了强有力的支持,如BaseX, BerkerlyDB等开源XML数据库。随着大数据时代的到来,数据会呈现爆炸式地增长,数据被分布到分布式的数据库系统或者数据源上。在多个数据源上进行关键字检索时,每个数据源都要对关键字进行查询,查询时间由查询速度最慢的数据源决定,由于有些数据源针对某些关键字不能给出很好的结果却浪费了查询时间及服务器资源,因此选择与用户查询的关键字相关度大的数据源进行查询对提高检索效率显得格为重要,因此数据源选择问题是信息检索领域及异构系统集成领域的一个研究热点。本文提出了一种基于关键字检索的XML数据源选择方法,针对XML文档结构的层次特性,提出了一种递归定义的结果评分模型,将节点的关键字频率与路径长度递归地加入到评分模型中,相比较之前的方法,评分模型能够准确地评判结果的优劣。同时,利用评分模型定义并提取了XML数据源的摘要,本文使用的建立摘要的算法只要解析XML文档一遍即可完成XML数据源摘要的建立,对于摘要存储中涉及的压缩、优化、更新等问题的解决方案及算法也进行了详细的叙述。针对XML数据源选择系统,本文给出了系统的架构,并对系统的每一部分进行了详细的描述。根据摘要信息,提出了四种数据源选择的方案,并使用DBLP数据集进行试验,将本文的方案与相关研究中的解决方案进行了比较,验证了本文方案的有效性。
其他文献
近年来,人工电磁材料(也称为超材料)成为科学界和工程领域研究的热点,基于人工电磁材料的电磁器件研究更是备受科研人员的关注,并取得了举世瞩目的科研成就。超材料是由人工
<正>近年来国内外对单一性别教育的研究和实践,正成为一个值得关注的教育热点问题。所谓单一性别教育,从国内外的教育实践看,指中小学校所实施的在至少一个年级里有一个单一
随着全球信息化和经济一体化的发展浪潮,企业之间的竞争已经逐步演变为知识的竞争,知识成为企业第一生产力。许多企业的知识管理存在缺位,阻碍了企业信息化的应用和发展,也同
本文设计并制备了原位自生Ti2AlN/TiAl复合材料。利用扫描电镜(SEM)、透射电镜(TEM)、X射线衍射(XRD)、差热分析(DSC)等多种手段对材料微观组织及合成机理进行了系统研究;采用三点弯曲
<正>2电力行业概况2013年,阿富汗全年发电量1 120 GWh,其中水电(961 GWh)、火电(22 GWh)及柴油发电(137 GWh);此外进口电量为3 458 GWh,国内总供电量为4 578 GWh,然而实际用
自上个世纪八十年代至今,色彩构成以其理论的基础性、实践的创造性和指导的广泛性普遍成为艺术设计专业入门的基础课程,也是色彩训练的公认的途径。在色彩构成教学中要重视学
目的:对各类型血液透析机器的透析液混合系统进行分析,探讨对于各类型血透机的不同维护保养方法,保障透析液中的离子浓度准确、有效。方法:对各类型血液透析机器的透析液混合系
中国运载火箭技术研究院物流中心是全院物资集中采购和供应单位,随着近几年业务规模的不断扩大,对财务风险的防控随之提出了更高的要求。如何进行有效的风险识别、风险评估、
群众体育的发展和国民身体素质的提高,需要人们具有良好的体育锻炼习惯。而体育锻炼习惯的养成是一个艰难的过程,同时它也是一项系统的教育培养工程。从个体发展的一般规律来看
21世纪是知识经济的时代,创新是知识经济的源动力,知识和高素质人才是支持知识经济良好运行的最重要的资源。高校科研团队作为科技创新的主力军,其创新能力作为衡量一国科技发展