Web数据抽取技术的研究

来源 :南京财经大学 | 被引量 : 0次 | 上传用户:dama5011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今世界互联网的快速发展,Web已经发展成为一个巨大的和共享的信息空间,这些大量的数据可以为进一步的数据集成、数据挖掘等系统提供数据支持,Web数据抽取正是为了研究如何从网页中将用户可能感兴趣的数据抽取出来。本文主要针对列表页和内容页两种形式的网页分别进行了研究。列表页是指包含一个或多个对象列表类型的网页,至今已经有一些关于自动抽取列表页数据的研究,但由于网页的组织形式多变、模板不统一,存在以下问题:列表页数据记录的组织方式具有多样性,从而导致可能会将多条真正的数据记录当作一条数据记录抽取出来;已有的简单树匹配算法算法只考虑节点的标签名,而实际的网页中数据记录的很多字段的标签名是相同的,导致两条数据记录存在多个有着相同最高分的匹配。针对以上问题,本文在挖掘出数据区域之后,对构成数据区域的可能数据记录节点进行进一步地分析,从而识别出真正的数据记录,然后在已有的简单树匹配的基础上加入了对节点所包含内容的考虑,提高了抽取数据字段的准确率。无结构内容页侧重对一个对象的具体描述,本文实现了一种基于分块思想的内容页正文信息抽取算法。在对网页进行分块的阶段,采用基于DOM树结构和页面的视觉信息的算法,将网页进行合理地分块。得到合理的分块结果之后,采用分类学习方法对训练集进行学习,建立块的空间特征到块是否属于正文的映射关系,实现正文块的选取。对于结构型的内容页,通过对两个相似页面的匹配,实现对象的属性值数据的自动抽取。由于结构型内容页的页面四周会包含一些广告等噪音数据,而相似页面之间的广告等数据可能不同,这些会影响页面之间的匹配,误将广告等数据抽取出来。论文对此作了改进,在对两个页面匹配之前,采用论文中实现的无结构内容页正文抽取技术先抽取出正文,接下来再采用匹配算法对抽取得到的正文匹配,进而提高了抽取属性值等数据的准确率。
其他文献
集成毛细管电泳芯片(IntegratedCapillaryElectrophoresisChip,ICEC)属于微流控芯片(micro-fluidicchips)研究领域,是分析化学、机械、电子计算机、生命科学等,多学科交叉的产物
人耳识别是一种新的生物特征识别技术。人耳(尤其是外耳)具有结构稳定丰富、不受面部表情的影响、更容易采集、更容易为人接受、不容易欺骗等优点,因此人耳识别正在成为生物特征
随着计算机技术和网络技术的迅速发展,Intranet技术广泛应用于社会的各个领域,大量的企事业单位都组建了自己的内网(Intranet)并接入了互联网,但敏感信息的泄露、计算机病毒的泛滥
体表心电图是临床诊断、治疗的重要工具,但是,由于人们不能全面了解体表心电信息与心脏工作状态之间的对应关系,使得心电图在心脏疾病的临床诊断中受到很大的限制。随着分子
在最近的二十年里,电子格式存贮的数据以惊人的速度激增,形成了海量的数据和信息。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,包括统计学习和
网格计算是为了在动态的、跨机构的“虚拟组织”中协同地资源共享和问题求解而提出的技术。网格技术由起先为解决科学和工程计算问题而提出的“计算网格”发展到现在的“服务
基于P2P技术的电子商务平台不需要集中式的中央服务器,信息交流更直接更灵活,同时用户能更好地把握自身的安全和隐私。相对于集中式的电子商务模式,其投资少,形式灵活,更符合
目前,建筑施工企业的资料生成与管理是一个难题。建筑施工企业在生产过程中需要产生大量的技术和管理资料,传统方式下这些资料由技术员与资料员手工绘制,这会消耗大量的人力物力
乳腺癌是危害人类健康的恶性疾病之一。目前,早期检查和早期治疗仍是提高乳腺癌治愈率的关键。超声医学技术是继X线钼靶照相技术和CT后,在医学中发展最为迅速、应用最为广泛
本文旨在研究蚁群算法原理的基础上,开展包括基于蚁群算法的分类和聚类问题的数据挖掘方法研究,并针对地震数据的特点,将所研究的方法在地震预测上加以应用。为了提高算法的计算