面向特定领域的Deep Web数据获取技术研究

被引量 : 0次 | 上传用户:wenproklklklkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,隐藏在Web数据库中高质量的信息资源因为结构完整、数据量巨大而受到广泛的关注。然而这类信息资源只有用户向Web查询接口提交查询后才会以HTML页面的方式展现出来,使得传统的搜索引擎无法获取,因而被称为Deep Web。为了提高Deep Web资源的利用程度,需要将隐藏在查询接口之后的数据展现到查询结果页面中,并将其抽取成为结构化的数据。本文对特定领域的Deep Web数据获取关键技术进行了研究。研究主要分为两部分:数据表面化以及数据记录抽取。主要研究内容如下:1)针对Deep Web查询接口中的范围型属性,提出了一种基于采样的值域划分方法。该方法有效地提高了Top-k查询接口中数据表面化的效率。2)针对查询接口中的分类型属性,改进一种基于层次树模型的数据表面化方法。该方法通过调整分类型属性的提交顺序,有效的减少了查询提交的次数。3)针对查询接口中的文本型属性,本文采用了一种候选值筛选的方法。该方法利用候选属性值在样本库中的分布,对候选值进行筛选,增加了平均查询收益。4)根据查询结果页面中特征节点的分布信息,提出了一种数据区域定位算法。该算法将页面的结构信息和数据记录的属性特征结合起来,弱化了网页结构变更对抽取效果的影响。5)在数据记录抽取阶段,本文讨论了一种特征序列划分和树相似度相结合的数据记录抽取方法。该方法不但可以提高数据记录抽取的准确率,而且能够对齐数据记录的属性。本文通过实验验证了上述算法的有效性,并设计了面向电子商务领域的Deep Web信息集成原型系统。
其他文献
<正>不管是哪一个国家,从民族主流文化上,对于性交易都是排斥的。如果你认为美国开放到全境允许性交易,那你就错了,全美只有内华达州批准性交易合法化;如果你认为内华达州声
目的:探讨腰椎间盘突出症的中药辩证分型治疗方法与效果。方法:收治腰椎间盘突出症患者120例,其中血瘀证50例,寒湿证40例,肝肾亏虚证30例,根据分型分别采用辨证治疗。结果:血
开展大学生感恩教育,刻不容缓。文中探讨了感恩和感恩教育的内涵,分析了大学生感恩教育缺失的表现及原因,并就如何开展大学生的感恩教育提出了对策建议。
信息技术的发展促进了行业的变革,也对人的素质提出了更高的要求,特别是对国民教育事业产生了巨大且深刻的影响,尤其对我国的基础教育产生了前所未有的挑战。在此背景下,以多
通过对民勤绿洲-荒漠过渡带典型固沙植物多枝柽柳(Tamarix ramosissima)、梭梭(Haloxylon ammodendron)、白刺(Nitraria tangutorum)1974—2009年开花及结实物候的观测,结合
课程内容的构成要素、组织原则与结构形式是新课程改革的核心问题。它表征了教师教什么、怎么教,学生学什么、怎么学。课程内容由知识、技能和情感、态度与价值观等要素构成;
【正】Liquiphant Failsafe是由Endress+Hauser公司最新开发的安全音叉物位开关。作为一款创新性产品,Liquiphant Failsafe增加了音叉开关作为智能检测仪表的安全功能。首先,
介绍了36%唑草酮·苯磺隆水分散粒剂的研究过程,通过对载体、润湿剂、分散剂、崩解剂、填料的筛选,最后确定了36%唑草酮·苯磺隆水分散粒剂的优选配方。各组分及含量为:唑草
民族志是研究民族地区社会文化的重要文献,是研究民族渊源的史料。古代中国一直重视对各少数民族的记录,表现在官定的二十五史中都有专门列传、地理志、土司志等有关于四裔各
随着市场经济的发展,利益的多元性在市场经济的发展过程中得以释放,对于利益主体多元化的培育,促进了社会分层化和利益多元化格局的形成;与此同时,社会进步过程中,政治文明的