面向Web数据集成的数据抽取问题研究

被引量 : 0次 | 上传用户:xwp1024
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,Web上的网站和网页数量以爆炸性的趋势增长,从而使Web成为一个巨大的、分布广泛的数据源。有效地获取和集成Web数据,为进一步的分析和挖掘提供支持,具有十分重要的应用价值和现实意义。面对Web上海量的异构数据,Web数据集成技术成为研究热点。Web数据集成可以实现对Web数据的有效整合,为市场情报分析等应用提供支持。Web数据抽取是Web数据集成中的关键问题,对Web页面中广泛存在的半结构化数据进行有效地抽取,是实现Web数据集成的基础和保证。从Web页面中准确地抽取半结构化数据已经成为当前的热点研究问题之一,但由于Web上数据具有海量、异构、动态变化和联系丰富等特点,导致Web数据抽取研究中仍然存在以下问题有待解决。(1)Web上广泛存在的半结构化数据的模式会动态变化,需要有效地获取Web实体的模式信息,为Web数据抽取和集成提供指导;(2)需要准确地抽取目标数据,并进行语义理解,为进一步整合Web数据奠定基础;(3)Web数据间具有丰富的联系,需要有效地建立新发现Web实体与Web实体模型中已有Web实体之间的联系,为进一步整合Web数据奠定基础。本论文以Web数据集成为目标,针对Web数据抽取中存在的以上问题展开研究,本论文的贡献主要包括以下四个方面:(1)针对Web上广泛存在的半结构化数据的模式动态变化的特点,提出一种Web实体模式的动态构建方法,实现对Web实体模式信息的逐步丰富。本文提出一种动态构建Web实体模式的方法,有效地克服了现有方法无法随着Web页面中半结构化数据的模式的变化而逐步丰富Web实体模式的不足。本文提出的方法,充分利用Web数据集成系统中已存在的数据,辅助识别出目标页面中的新属性标签,并利用条件随机场模型实现对Web实体模式信息的动态丰富。实验结果表明,该方法在动态丰富Web实体模式的同时,也有效地解决了Web实体模式与目标网页中Web数据对象的属性标签间的模式匹配问题。(2)针对Web数据集成系统中已存在大量数据的特点,提出一种基于集成学习的Web数据抽取方法,有效地提高目标数据的抽取准确度。本文提出一种基于集成学习的Web数据抽取方法,充分利用目标网站采样页面自身包含的特征以及Web数据集成系统中已存在的大量数据中包含的潜在特征,识别出采样页面中的数据元素和属性标签,生成良好的训练样例,进而学习生成包装器,从目标网页中抽取数据。实验结果表明,该方法有效地克服了现有大部分方法仅利用目标页面自身特征识别数据元素和属性标签,导致对于结构复杂的Web页面产生的训练样例质量不高,严重影响包装器抽取准确度的不足,提高目标数据的抽取准确度。(3)针对Web数据元素间具有的二维序列特征和关联特征特点,提出一种基于二维关联边条件随机场的Web数据语义标注方法,有效地提高Web数据语义标注的准确率。本文提出一种新的二维关联边条件随机场模型(2DCC-CRFs),有效地克服了现有的大部分条件随机场模型仅能对Web数据元素间的短距离依赖联系进行处理的不足,充分利用Web数据元素间的长距离依赖联系和短距离依赖联系,提高语义标注的准确率。该方法首先利用已有数据库的结构化信息及记录特征辅助确定部分数据元素的语义标签,发现潜在的具有长距离依赖联系的数据元素;然后,产生两种类型的关联边,描述潜在的长距离依赖联系;最后,通过在已有经典模型(2DCRFs)的基础上添加关联边,建立二维关联边条件随机场模型,使其在对Web数据元素间短距离依赖联系建模的同时,有效地对Web数据元素间的长距离依赖联系进行建模和处理。实验结果表明,该方法可以有效地提高Web数据语义标注的准确率,为进一步整合Web数据奠定基础。(4)针对Web数据间具有丰富联系的特点,提出一种利用已抽取Web数据对象间的联系发现新Web实体与Web实体模型中已有Web实体间联系的方法,有效地丰富Web实体模型。本文针对新发现Web实体与Web实体模型中已有Web实体间的联系发现问题,提出一种基于多策略的Web实体间联系发现方法,有效地弥补了现有的关系发现研究大多集中于命名实体间的关系发现,缺乏对Web实体模型中Web实体间联系自动发现的研究的不足。该方法首先利用已抽取的Web数据对象间的联系发现新Web实体与Web实体模型中已有Web实体间的候选联系;然后,对候选联系进行评价;最后,将符合条件的候选联系返回给业务专家,确定最终的Web实体间的联系。实验结果表明,本文提出的方法可以有效地解决新发现Web实体与Web实体模型中已有Web实体间的联系发现问题,丰富Web实体模型,为进一步整合Web数据奠定基础。
其他文献
第一部分γ—氨基丁酸受体基因多态性与特发性癫痫发病的关系目的:探讨γ—氨基丁酸(GABA)受体基因GABBR1多态性在特发性癫痫发病中的作用。方法选择2004年10月至2006年11月在
激光切割技术从1960s诞生以来,由于其具有加工速度快、加工材料不形变、精度高、切割材料种类多等优点,已经广泛的应用于各个行业中。近年来,随着企业对自动化切割要求不断提
一个人在9~12岁是好奇心和学习能力较强的时期,而这个期间学生正处于小学阶段,在现代经济文化迅速发展的社会里,家长都非常重视孩子从小的培养教育,希望他们在开始就不输在起
不同介电常数的材料在空间中周期性排列形成的光子晶体,具有光子禁带和光子局域两大主要特性。利用这些特性,在光子晶体结构中引入点/线缺陷,能够制作出易于大规模集成的高性
多效唑叶面喷雾浓度选择2000-5000PPM、施药时间的安排(3-4月)、水肥控制(根据水肥条件两次施肥)、测量试验数据,选择适合桩景欣赏风格的生产处理。
<正>近来澳大利亚悉尼大学和墨尔本大学的科学家对大型笼养条件下的蛋鸡应激状况进行了调查。他们将112只蛋鸡分为提供产蛋箱组和不提供产蛋箱组,对蛋鸡血清和所产蛋清中的肾
针对民航发动机传感器非线性故障,研究基于小波变换与RBF神经网络结合的故障诊断方法。通过小波变换对数据样本加以特征提取,根据非线性故障模型,以训练后的RBF神经网络实施
<正>档案管理工作是医院现代化、科学化管理的一个重要组成部分,它关联的科室广、涉及面大、内涵深,直接影响着医院整体管理水平的提高。我院档案管理工作始终居于大连市卫生
会议
目前表面贴装技术(SMT)中,表面贴装元器件(SMD)贴片工序之前存在难以对SMD的性能全自动检测的工艺盲点,本课题针对SMD全自动检测设备开发需求,研究并设计了对应控制系统。本
为培养学生学习跆拳道的兴趣,提升课堂教学质量,对学生由于自身原因所产生的情绪因素进行分析,并针对学生身体、性格、兴趣三个影响学生学习跆拳道的情绪因素分别给出适时适