基于网页相似性的Web信息自动提取方法研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:flyinghdl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术高速发展的今天,网络已经成为人们工作、学习和生活的重要信息来源。但是海量的网络信息给人们搜索所需的信息带来一定的麻烦。搜索引擎目前是人们在互联网上主要使用的信息检索手段,但是搜索引擎返回的信息仍然是冗余和不准确的。为了提高在互联网上进行信息检索的效率,有必要对网络信息进行提取和集成处理。其中信息提取是数据集成的基础。  互联网上的信息主要以Web网页的形式存在,针对Web网页的信息提取已经发展出许多方法,由早期手工创建提取器的方法,发展到当前的半自动和自动创建提取器的方法。但这些方法都还存在一些局限性,使得Web信息提取应用于互联网的海量网站有一定的困难。Web信息提取和数据集成系统,仍然未能在实用化程度上达到成熟搜索引擎的高度。因此,网络信息提取仍需要研究适应性更强、准确性更高的自动化创建提取器的方法,和表达能力更强的提取规则表现形式。  在当前互联网环境下,网页内容十分丰富,网页与客户交互很多,使得网页格式多变,结构复杂,网络信息提取的难度变得更大。  针对网络环境的这一特点,本文认为网络信息自动提取需要围绕一个重心,即同时提高网络信息提取的准确度和自动化程度,重点解决四个问题:  1、变化格式下结构相似网页的匹配精度问题;  2、网络数据中嵌套重复结构的识别问题;  3、复杂结构网页的模式的表达和自动生成和问题;  4、高效高精度的提取规则的实现问题。  围绕上述四个问题,本文深入研究了网络结构特征,提出了由“相似性”拟合“等价性”的思路,解决了这一变换在逻辑上的缺陷,有利于排除网页格式波动对提取算法带来的干扰,提高机器学习的准确度。通过分层剖分网页节点的结构关系,很好地处理了复杂网页结构,尤其是乱序结构下网页模式生成和表达问题。提出基于网页模式全局比较和基于Xpath局部最优的两种提取规则,兼顾了精度和效率。
其他文献
近年来纳米科技发展迅速,一种新型纳米材料碳纳米管(CNTs)问世,因其独特的物理化学性质得到广泛的应用。CNTs可能会扩散到生态环境。包括CNTs在内的纳米材料的生物安全性问题也
随着多媒体技术的快速发展,视频技术正向着数字化、网络化、高清晰度、立体化的方向发展。与2D视频显示相比,立体视频可以增加景物的深度信息,增强视觉上的现实感、逼真感和沉浸
生物新课程标准要求以学生发展为本,倡导学生积极探究,主动获取知识,培养学生的提出与解决问题的能力、交流与合作的能力等,问题教学法有利于这一教学目标实现,问题教学法在生物
位置服务系统通过定位用户地理位置,为用户提供多样化的信息业务。随着移动互联网的迅速发展,位置服务日益展现出广阔的应用前景。本文针对校园环境特点和定位应用需求,设计
疯草(locoweed)的主要有毒成分吲哚兹定生物碱—苦马豆素(swainsonine,SW),不仅能导致家畜中毒死亡,而且能够引起母畜流产、不孕、胎儿畸形和公畜不育,给我国草原畜牧业生产造成了巨大的经济损失。从营养学角度看,疯草营养价值高,是一种潜在的牧草资源,其抗逆性强,在恶劣环境中能旺盛生长,应当把它看作生态群落的重要组成部分。如何有效防治疯草对动物的毒性,又可将它作为优质牧草加以利用,一直
移动设备迅猛发展,各类嵌入式产品不断涌现,智能化的趋势在各个领域迅速蔓延。虽然系统功能日益强大,但用户要求也在不断的变化和升高,个体平台的资源已经远远跟不上要求的攀升,与
近年来,包括车联网物联网在内等新一代信息技术的兴起引起了各界广泛的关注。对于其中的物品和车辆等目标位置的确定和跟踪离不开无线定位导航技术。当前应用最广泛的全球卫星
本研究以白三叶(Trifolium Repens)为试验材料,采用室内盆栽试验,模拟 Cd胁迫。在不同浓度Cd2+(0、100、200、300、400、500μmol·L-1)胁迫7天,测定幼苗的重金属 Cd含量、叶片
时间的巨轮永不停歇,如今已经驶过了2019年.回首过去的这一年,中国纺织行业在复杂的外部形势下,内外市场表现良好,生产增速持续平稳,企业效益逐步改善,高质量发展成效显现,纺
期刊
纺织既是一个传统行业,也是有着巨大需求和广阔拓展空间的崭新行业.随着全球科技的高速发展,新材料、新工艺、新技术、新需求和新理念的不断涌现,纺织业面临着新机遇.智能制
期刊