基于结构和内容的Web数据抽取技术研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:newAya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的互联网已经发展成为拥有上亿用户和几百万个站点的巨大的分布式信息空间,而且其信息量仍在飞速增加,因此查询网上信息变得日益重要。大多搜索引擎采用的方法是用户提出需要查询内容的关键词,搜索引擎根据关键词确定查寻的内容。由于这种方法不能对网页中较细节的信息进行查询,所以研究人员希望借鉴一些数据库技术进行互联网上信息的查询,因此如何从Web(环球网)页面,特别是从HTML(HyperTextMarkupLanguage:超文本标识语言)文档中抽取有用信息,已经成为基于Web页面的信息检索系统迫切需要解决的问题。基于上述背景,本文做了以下几个方面的工作。 首先,对目前抽取准确度和完整程度最好的EXALG方法进行了深入分析,指出EXALG系统中存在着成对标签不一致,模板中的文字节点出现多个出现向量,等价类识别错误等问题。 其次,提出了一个改进的数据抽取方法,即EXALG+;给出有关定义和抽取流程;提出等价类的近似顺序性和近似嵌套性概念。采取具体的标签技术解决EXALG存在的问题:进行标记的角色区分时,将配对的标签放在一起加以处理;通过合并文字节点,使标签满足系统设定的最小支持度;利用DOM树的路径和等价类的区间位置差异来区分正确等价类;选择加入到与标记相近的等价类中的方法,来处理等价类分割时产生的问题。使用每种标签技术时都给出了实例,并给出了EXALG+算法描述。 最后,利用EXALG作者给出的数据源和实验结果,在添加了部分新的页面实例后,验证EXALG+系统在准确度和完整程度方面的优势;同时对EXALG+系统和现有的其它数据抽取系统在性能方面进行比较,验证了改进方法的有效性和先进性。
其他文献
电子商务系统服务质量的提高和营运成本的降低都离不开其性能的分析与优化。而现阶段对电子商务系统性能分析的研究大多偏于理论方面,且可操作性不强,分析模型单一。为给电子商
对象请求代理(Object Request Broker,ORB)是分布对象计算的心脏,它使得许多麻烦而易错的分布式编程任务得以自动化。ORB作为一个“软总线”来连接网络上的不同对象,提供对象
计算机模拟在当代化学、生物学、制药学以及流体力学等科学领域的研究中都扮演着不可替代的作用。通过对介观层面上的颗粒以及分子的模拟,可以大大地缩短这些科学研究方法的周
随着并行计算技术的发展,越来越多的程序是基于并行模型开发的,而且它们会被托管运行在SMP虚拟机平台上,这就要求宿主机平台能够提供高效的虚拟机管理功能。其中,开源虚拟机监视
计算机网络的高速发展给计算机网络管理提出了更高的要求。在早期互联网并未充分地考虑其安全问题,但今天安全问题愈加突出,成为研究热点和业界瞩目的焦点。为了解决计算机网络
电力行业是国民经济的支柱产业,为提高电力运营的经济性和可靠性,需要在规划选址、经济运行中综合考虑诸多关联因素。电力系统中存在各种输变电设备状态监测系统用于提高运行稳定性。各种输变电设备状态监测系统在长期运行中积累了大量历史数据。合理利用这些历史数据,对于帮助电力系统决策人员做出科学的决策具有重大意义。考虑到各种电气设施分布在广阔的地域空间上,导致从这些设备采集到的运行数据多包含地理属性。为有效对这
随着计算机技术的不断发展以及其软硬件的更新换代,越来越多的人开始使用计算机对图像做各式各样的处理。图像处理技术也在迅速的发展,其应用范围也不断拓展,例如机器人视觉
随着移动电子设备在日常生活中的广泛使用,人们可以方便快捷地通过拍照获取图像,而图像中往往包含着内容丰富的文字信息,基于摄像头的应用产生了大量对拍摄场景内容理解的需求。
随着网络化的高速发展,对数据的需求越来越大,于是大数据时代来临了。而大数据的出现也带来了数据的安全问题。因此,基于隐私保护的数据挖掘技术得到了广泛的研究,本文针对基于隐
随着网络技术、无线通讯技术的发展和移动设备的普及,人们迫切需要在任何时间、任何地点通过移动设备访问所需数据,使得任何地方都可能成为工作场所,以提高工作效率。这种全