基于XML的Web信息抽取技术研究

来源 :沈阳理工大学 | 被引量 : 4次 | 上传用户:yan2541023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web上的数据信息急剧增加,成为了世界上规模最大的公共数据资源,而信息展示网页是主要的展现媒介,大量Web信息是在信息展示页面中表现的,这些信息是用户感兴趣信息的主要来源,因此,研究如何对这类网页进行Web信息抽取有重大的意义。HTML在展示数据方面十分成功,它着重于文本内容的表现而不是数据的描述,根据标签无法获得它们所包含的文本内容。XML是着重于数据描述的一个新的语言,易于对数据进行控制与操作,所以通过XML技术进行信息抽取具有很大的优势。而XHTML做为HTML与XML之间的桥梁,可以将HTML格式转换为符合XML技术标准的XHTML格式。本文采用可扩展标记语言XML的相关技术来抽取信息展示网页中的信息。其解决方案是:首先,对获取的网页进行预处理,主要包括对HTML网页进行标签清洗,将清洗后HTML文档转换为XHTML文档,并解析XHTML文档生成DOM树;随后,通过改进基于XML的分块算法,采用DOM树节点赋权值方法进行主数据块的抽取,并形成数据记录;最后,基于XML行业词汇与文字数量特征对数据记录进行二次识别,最终抽取出信息展示页的主要内容。本文对信息抽取的相关技术进行了研究,根据信息展示网页的特点确定了抽取信息的方法,最后建立了抽取的实验模型。在进行信息抽取时,由于抽取主数据块采用了合理的权值,所以很好的去掉噪音信息;同时还采用了二次识别权值的方法,精确的抽取出主要信息。试验结果表明,采用该方法在召回率和准确率上都得到了良好的效果。
其他文献
随着网络技术的迅速发展和J2EE平台的广泛应用,基于B/S的多层Web体系结构正在不断的发展完善,并逐渐成为Web应用开发的主流。但是,在现有的Web应用系统中,普遍存在着程序可重
涉及国家安全的各种秘密信息,直接关系到国家的安全利益和社会的稳定。国家机密信息一旦被窃取或破坏,将对国家造成不可估量的损失。在信息安全攻防技术发展到了较高水平的今
当前针对网络外部的入侵攻击已有相对完善的防护措施,但针对来自系统内部的用户威胁则缺乏针对性的措施。尤其在国防、公安、金融等领域,来自系统内部的越权访问、信息窃取、
Bernoulli数、Stirling数、Euler数在组合数学、函数论、理论物理及近似计算等方面均有广泛的应用。在数字图像中,可以利用欧拉数来描述物体结构,保持图像特征不变;在离散数学中
指针式仪表有很多优点,因此在生产生活中有巨大的存量,而且每年都在增加。面对大量需要进行检定的指针仪表,采用人工读数的方式检定仪表读数不仅成本高效率低,而且读数精确度
随着信息技术的高速发展,信息数据已成为企业拥有的最有价值的财产,信息数据的丢失或损坏会给企业带来无法弥补的损失,数据备份无疑是最佳防范措施。随着企业的发展,需要备份
随着计算机通信与网络技术的发展,网络协议的稳定性和安全性发挥着越来越重要的作用,所以对网络协议的研究有重要意义。形式化的方法将成为分析网络协议的重要方法,目前有很多研
车辆的转向系统是实现驾驶员的操作意图、控制车辆行驶状态和整车操纵稳定性的最重要系统。电动助力转向系统是目前研究及应用的热点,该系统具有部件少、结构简单、节能环保
随着社会经济的迅速发展和无线网络的迅猛崛起,人们对于随时随地都能够提供信息服务的无线通信的需求就与日俱增。由于无线频率资源的日益珍贵,短距离无线通信技术就有着广阔
发展蒙古文远程教育平台,加强蒙古文教育资源建设的规范化程度,对促进蒙古文教学资源的重复利用和共享率、提高蒙古语教学水平有着重要的意义。目前,汉语教学资源规范化方面