Deep Web数据抽取中自适应包装器问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:somlist
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,Deep Web网站上拥有着海量的数据,并且在快速地增长,使Web成为一个巨大的数据源,这些信息要通过查询接口在线访问其后端的Web数据库。尽管Deep Web中蕴藏了大量丰富的有价值信息,但是Deep Web数据具有动态变化性和异构性等特点,对这些信息进行有效利用是非常有挑战性的工作。Deep Web数据集成至今仍然是一个研究热点,Deep Web数据集成可以对Web数据进行有效整合,为电子商务、市场情报分析、舆情分析等应用提供支持。Deep Web数据抽取是Deep Web数据集成中的核心问题,对Deep Web页面中广泛存在的非结构化和半结构化的数据进行有效地抽取,是实现Deep Web数据集成的基础,为数据融合和数据分析等提供服务。由于Deep Web页面都是基于脚本生成的网页,许多的文档共享公共的Html树结构,通常使用包装器来有效地抽取Web数据。由于Deep Web数据的异构性和动态性,Deep Web网页结构经常发生变化,导致包装器出现中断,从而需要重新学习包装器。Deep Web数据抽取中自适应包装器问题研究中,还存在以下问题有待解决:(1)研究如何提高抽取包装器的健壮性,即当Web网页发生变化时,包装器在新网页中继续保持抽取数据的能力。(2)研究抽取规则是否具有通用性,即针对某一数据源构造的抽取规则能否做自适应调整以便应用于另一数据源,实现领域自适应的抽取。本文针对网站上大量的Deep Web网页,以Deep Web数据集成为目标,针对以上两个待解决的关键问题展开研究,探索了构建健壮的包装器用于Deep Web数据抽取的问题,主要工作与研究成果概括如下:(1)针对包装器健壮性问题,提出了一种基于最小代价脚本编辑模型的健壮的Deep Web数据抽取方法。通过监控网页随着时间变化的过程中,统计插入、删除、替换三种编辑操作对每个Html标签的变化频率,根据编辑操作变化的频率计算相应的编辑代价,并在此基础上建立抽取模型用于健壮的Deep Web数据抽取。根据网页的变化,调整抽取规则,使得构造的抽取规则能更好的适应网站的变化。实验结果表明,该方法构造的包装器具有较高的抽取准确率,有效解决了Deep Web数据抽取中自适应抽取的问题,提高了Deep Web数据抽取的健壮性和灵活性。(2)根据自底向上(Bottom-up)的逻辑归纳设计思想,提出了一种最小的候选包装器的生成方法。该方法使得构造的包装器的查准率(Precision)和查全率(Recall)都接近于1,提高了包装器的抽取准确率。实验结果表明,该方法构造的包装器具有较小的破损率,抽取准确率较高。(3)针对包装器通用性问题,提出了一种自举法(Bootstrapping)的方式学习包装器,实现领域自适应的抽取。对51job招聘站点上训练得到的抽取模型,用于同领域内其他招聘网站如智联招聘、应届生求职等网站,随机采样一些网页用此抽取模型进行学习,从采样页面中抽取特征后,将抽取模型用于新的网站来识别属性值;由此得到的抽取规则进一步代替之前有标签的样本页面,通过自举式学习抽取模型,使得构造的包装器具有较高的通用性。实验结果表明,本文提出的方法有效地提高了目标网站的抽取准确度,有效解决了从大规模的Deep Web数据中进行抽取的高效性问题。
其他文献
随着互联网技术的飞速发展,在线社会网络逐渐变得庞大并且结构复杂,所呈现出来的社区结构通常是可重叠的,如何准确有效地发现这些复杂社会网络中的重叠社区结构,是社区发现领
随着网络技术的高速发展,网络带宽不断增加,网络协议层出不穷,对于网络安全需求日益明显。在此环境下对网络流量识别和分类提出需求。网络流量识别可以用来监测网络运行情况
肝脏是新陈代谢的重要器官,内部结构非常复杂,分布着多种复杂的管道系统。由于肝内管道的复杂性及人体肝脏的个体差异,肝脏手术往往伴随着巨大的风险。外科医生需要综合肝脏血管
随着微博、Twitter、Facebook等社交网络的发展,人们越来越多地通过社交网络进行信息互动和信息寻求,在状态域中提问已经成为流行的信息寻求行为之一。直接在社交网络中提问不
图像放缩是图像处理、可视化、计算机图形学和虚拟现实等领域的基本问题,应用背景十分广泛。通过图像放缩改变已有图像的大小,并呈现出较好的视觉效果,是图像处理、模拟仿真
随着Internet的迅猛发展和日益普及,网络文本信息急剧增长,如何有效的组织和管理这些海量信息,并能够快速、准确、全面地获得用户所需要的信息是当今信息科学技术领域面临的一大
Web缓存技术被认为是减轻服务器负载、降低网络拥塞的有效途径之一,其基本思想是利用客户访问内容的时间局部性(TemporalLocality)原理,将客户访问过的内容保存在缓存中,当该内
近年来,随着多媒体业务的种类越来越广泛,如网络电视、在线直播、视频会议、远程教学等等,多媒体数据传输已经成为网络中数据传输的重要组成部分,同时,伴随着网络用户的不断
近年来,随着互联网和Web2.0技术的不断完善,各种社交网络服务层出不穷,人们越来越习惯于在在线社交网络平台上进行互动交流和信息发布。社交网络因此成为人类知识共享、交互
本质上,入侵检测是一个模式识别和分类问题。支持向量机(SVM)对不平衡和非线性数据具有独特优势,因而尤其适合入侵检测分类器的设计。基于SVM的入侵检测方法已经取得了良好的效