基于条件概率图模型的Deep Web数据抽取与集成研究

被引量 : 0次 | 上传用户:ahqmchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,大量的结构化数据蕴藏在Deep Web中,但是由于Web网页的半结构性、Web超链接的自由无序性以及Deep Web数据的海量性、异构性、多样性、动态性等特点,使得Deep Web数据抽取与集成成为当前亟待解决的研究课题。概率图学习模型是机器学习领域当前异常活跃的研究热点之一,它在数据挖掘、信息抽取、信息检索等领域得到了广泛而成功的应用。本文将条件随机场,一种序列条件概率无向图模型,引入到Deep Web数据抽取和集成的研究中,对其中的查询接口发现、分类、集成以及查询结果数据的抽取和重复记录检测等多个具有挑战性的实际问题进行了系统和深入地研究。针对不同问题提出了改进的条件随机场模型、新的算法或新的实现策略,主要工作概括如下:(1)针对Deep Web查询接口自动搜索和发现问题,提出了基于条件随机场的网页链接路径学习模型,给出了使用增强学习技术对超链接进行评分的算法。实验结果表明,搜索查询表单的性能明显优于其它表单爬虫。(2)使用条件最大熵模型处理Deep Web查询接口识别和领域分类问题。提出了一种仅利用表单结构特征来识别在线数据库查询接口的通用方法。此外,利用最大熵分类器的优点,融合查询表单的结构、内容等多种特征来实现查询表单的领域分类。实验结果表明,该方法分类准确率高。(3)利用有序树模型来表示抽取的查询接口中查询项、字段和属性间的层次关系。提出了一种层次序列条件随机场模型,通过对查询表单中的查询元素进行联合标注分类,实现异构查询接口模式匹配。实验结果表明,该方法具有较高的匹配准确率和跨领域通用特性。(4)提出了一种基于标记树的网页区域分割方法,并且结合网页聚类和跨网页数据区域匹配技术来识别网页中的动态数据区域。针对多源Web记录语义标注和集成问题,提出一种混合跳链条件随机场模型。该模型通过将最大熵和线性链条件随机场混合,能够利用相关数据库中的记录作为训练样本识别抽取数据的语义标注,从而减少了对手工标注样本的依赖;此外增加对跳边的支持,使得模型能够处理状态变量间的长距离依赖。(5)最后,针对重复Web记录检测问题,提出一种条件训练字符串编辑距离模型,可以从训练样本数据中自动学习字符串对的相似函数。此外,使用支持向量机联合多字段相似度实现重复记录检测。实验结果表明,避免了采用固定距离度量函数可能引起的字段相似度估计偏差,并且提高了重复记录检测的鲁棒性。
其他文献
随着智能交通系统研究的发展,实时路网数据采集已经在智能交通领域越来越被重视。感应线圈、视频摄像头、微波雷达等对于动态交通流的自动检测手段也越来越普及。而这种基于
布尔迪厄作为法国继涂尔干之后最重要、最有建构力的社会学家,将他用于解释社会构成的独特概念“场域”、“习性”、“资本”等同样用于对科学的批判,将科学领域视为“科学场
本文旨在异香兰素和藜芦醛的合成方法研究,探索不同的合成路径,并优化反应条件。异香兰素,是一种重要的精细化工产品,用作香料、香精、食品及化妆品添加剂、植物生长调节剂等
保险缔约中的先合同义务主要包括投保人的告知义务和保险人的说明义务。其理论基础在于保险法上的最大诚信原则。其现实基础在于保险合同缔结时行为人对于危险的认识、测定的
从独立以来50多年里,印尼排华活动从没有间断过,成为了东南亚排华最严重的国家,直到今天,华人在印尼的地位仍然是十分不稳定的。排华运动有其深刻的历史、政治、经济和社会背
近年来,有关海峡两岸经贸合作的报道纷纷见诸报端,台湾与祖国大陆的联系,随着政治、经济、文化交流的不断深入也愈加紧密。入世后,在祖国大陆与台湾均扩大开放的互动作用下,
统制经济和计划经济分别存在于民国时期和新中国,研究它们的关系对于连接民国经济史和新中国经济史有着深远的意义,在这两个时期钢铁业的发展运行模式直接反映了两种体制的特
学位
以水环境容量为理论基础的污染物总量控制是当今水污染控制的发展趋势。随着社会经济的发展,我国水污染问题日益严重,急需要科学有效的开展水污染总量控制工作。因此,研究流
触觉形容词中的“触觉”是皮肤感觉的一种,指皮肤、毛发等与物体接触时所产生的感觉。本文所研究的“触觉形容词”是指表示触觉的形容词。汉韩语都有丰富的触觉形容词,它们在
写作是一切学科的基础,是语文教学的出发点和归宿,因此受到广大语文教师和语文教育者的关注。但是学生写作水平普遍低下,作文教学没有收到良好的效果,一直是语文教学中的难题