基于领域特征和用户查询取样的Deep Web数据源描述方法

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:gpm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果.本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成应用与研究提供参考和借鉴.[方法/过程]该方法为异构非合作型数据源的离线取样方法,通过分析数据源和用于查询的领域主题属性,依次构建领域特征词集、初始特征词集和高频特征词集,并最终获得以高频特征词查询取样的数据源描述信息.结合流行的CORI算法,深入分析基于推理网络的用户查询与数据源描述的相关度计算方法,并基于此方法设计基于Lemur工具集的集成检索系统,验证了上述方法的有效性.[结果/结论]所提方法在查全率和查准率方面均得到很好的表现.与其他方法相比,该方法在样本数据自动更新和运维管理方面具有明显成本优势和实用价值.
其他文献
对等网是一种采用对等模式计算的网络,与传统的客户端/服务器比较,有低成本、高可扩展性、容错性好、自治性和自组织性等优点,随着对等网络的广泛应用,网络中共享的文本、视
构建政府信息公开下的责任型政府是当前政府改革的趋势和目标取向。建设政府信息公开下的责任型政府,不仅为了提高政府的运行效率,增加政府工作的透明度,使政府的决策更加民
党的十八大明确指出要实施创新驱动战略来推动经济增长,区域产业的创新发展对地区经济增长有重要意义,产业创新已经成为决定区域经济发展水平差异的关键性因素。产业发展受到很
[目的/意义]针对新媒体环境下移动学习的特点,研究移动学习用户信息共享行为的现状,引导移动客户端更好地构建以用户为中心的信息共享交流平台。[方法/过程]采用问卷调查和实
数学的抽象性和严谨性很强,数学中程式化、符号化的东西很多,再加之原有教材割断了数学与生活的密切联系,不少教师的数学课堂教学往往比较沉闷、呆板。随着课程实验工作的不断深
12月10日,以“强动力·中国心”为主题的海马汽车“中国心”十佳发动机技术品鉴会在郑州举行,“中国心”年度十佳发动机评选专家评审委员会专家、KOL,以及来自全国各地的媒体
期刊
[目的/意义]对科学数据用户相关性线索与标准间关系进行研究,探索数据选择过程中线索与标准发挥的作用,从而为开发智能搜索引擎,提高检索效率提供依据。[方法/过程]选取36名
学科的不断发展完善,既是在传统基础,又是在不断吸取其他国家相关经验的基础上进行的。档案文献编纂学也是如此。我国档案文献编纂学由来已久,历史上已总结出丰富的理论和实
在竞争日趋激烈的当今社会,追求“经济效益最大化、社会效益最优化”成为社会实体在角逐中胜出的强有力保障。档案馆作为科学文化事业机构,如何从用户的需求出发,追求效益的
[目的/意义]开展读者关系管理有利于培养、维系、增进组织与读者的紧密关系,提升读者参与度与活跃度,改进组织阅读推广绩效。[方法/过程]从关系管理的理论出发,阐述在阅读推