结构化信息抽取-半自动化包装器的研究与应用

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:feihuaxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术在当今世界的繁荣发展,网络上所承载的信息量也越来越多。在各种形式的网页所展示的数据中,包含结构化形式的数据的网页占有重要的地位,如何从这些结构化数据的页面中将用户感兴趣的数据抽取出来,就成为了当今数据挖掘领域研究的热点问题。目前,已经有许多基于结构化数据的抽取办法,以及许多抽取结构化数据的原理。本文主要研究了两种结构化网页形式,并针对两种形式的结构化网页分别研究改进了其相应的抽取算法。第一种方法是针对平坦数据列表页形式的Web结构化页面的抽取算法。这种抽取算法通过对平坦数据列表页的源代码进行分析,生成相应的DOM树,通过DOM树中子树的比较将页面区分成几个数据区域;然后利用叶子节点的相似度找到蕴含目标数据的主数据区域,并对主数据区域中的数据记录进行识别;利用部分树对齐算法生成数据记录的抽取模式,抽取到目标数据。这部分在原有算法的基础上,对抽取算法进行了改进,改进后的算法能够在数据区域中区分出主数据区域,即目标数据所在区域,这样减少了不同数据区域之间数据记录的比较工作,从而提高了数据记录识别的效率。第二种方法主要处理详情页形式的Web结构化页面的数据抽取。这种抽取算法是基于半自动化形式的抽取算法;首先,需要人工的在待抽取的网页中选取一个样例,并对样例网页中的抽取目标项进行标注;针对标注的目标项算法找到抽取规则,并将规则应用于剩余网页的数据抽取,直到此规则不能抽取到目标数据,再将无法抽取的网页交付人工进行标注得到新的抽取规则,如此直到所有网页中的目标项抽取完毕。论文在这种针对详情页的抽取算法中,采用了对网页样例进行单一标注的算法思想,从单一标注的样例中获得规则,对剩余网页进行抽取直到无法成功完成目标数据项的抽取,再将无法抽取的网页交付给人工进行标注,生成下一样例,如此迭代直到全部网页抽取完毕。这样保证了标注的准确性和完整性,并提高了工作的效率。结合房产信息的特点,论文将两种形式的结构化网页抽取算法应用于房产信息页面的数据抽取。实验结果表明,两种算法能够较为准确的抽取到两种Web结构化形式页面中的目标数据项。
其他文献
在大数据时代的背景下,研究人员不断探索数据融合与共享的解决方案。与此同时,网络信息安全也迎来了前所未有的挑战,黑客们乐衷于寻找网络中的漏洞来发起恶意攻击,窃取机密信
随着社会经济的不断发展,汽车作为基本的交通工具保有量不断增加,导致城市交通安全问题日益突出。行人作为交通行为的主要参与者,往往成为交通事故的直接受害者,因此如何保护
移动Ad hoc网络,是由一组带有无线通信收发装置的移动终端组成的一个多跳的临时性无中心自治网络,可以在任何时刻、任何地点快速构建起一个移动通信网络。随着应用需求的变化
在计算机和网络技术迅速普及的今天,信息化建设也在学校的教育活动中得到了快速发展。因此,开发一个基于校园网络的课程学习系统来方便获取和共享学习资源,充分体现以学生为
计算机化自适应测验(Computerized Adaptive Test,CAT)是基于项目反应理论(Item Response Theory,IRT),并由计算机根据被试能力水平自动选择试题,最终对被试能力做出估计的一
在计算机系统中,存储子系统的能耗占据着相当大的比重,降低存储子系统的能耗对于降低整个系统的能耗具有十分重要的意义;同时,存储系统的性能也是整个计算机系统性能的瓶颈之
随着移动通信技术的飞速发展,基于无线传感器网络(Wireless Sensor Networks,WSNs)的定位技术受到越来越多的关注。无线传感器网络是由大量随机部署在监测区域的传感器节点组
优化是人们在科学研究、工程技术和经济管理等诸多领域中经常遇到的问题。粒子群优化算法(PSO)是最近十年来提出来的一种启发式群智能全局优化进化算法,具有原理简单、容易实
在现代工业生产乃至日常生活中,经常要用到各种各样的电动机,随着国民经济的不断增长,其需求量与使用量也在不断增加,成为国民经济生活中不可或缺的角色。但在实际的生产过程中,由于电网波动、负载冲击等影响经常造成电动机故障甚至损坏,对国民经济造成巨大影响,本文对电动机保护展开研究。首先介绍了电动机保护的意义、发展现状和存在的问题,针对电动机各种故障特征建立了相应的数学模型,讨论了交流电流保护的理论和算法。
互联网已经进入多媒体时代,越来越多的服务商介入流媒体行业,其中尤以网络电视和网络视频分享占主流位置,著名的公司企业我们早就耳熟能详。网络电视服务商使用P2P技术优化服