基于深度学习的Web信息抽取研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhsotanlb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,海量的信息数据随互联网时代的飞速发展不断注入到Web当中,因此从Web中精确地获取所需信息的重要性也日益凸显。但由于Web页面中信息种类的繁多、结构格式之间的差异等原因,使得传统利用手工编写规则进行信息抽取的方法过分依赖于具有专业领域知识的人的劳动并且通常具有较差的可移植性。循环神经网络在文本语义理解以及处理序列化数据中的优势使其十分适用于对Web页面进行信息抽取,有鉴于此,本文构建了一种基于双层循环神经网络的模型用于Web页面信息的抽取,其中第一层循环神经网络用于理解Web页面中每个文本节点中字词序列的语义,而第二层网络用于理解页面中多个文本节点相互间的序列化描述关系。在模型成功建立之后,本文使用TensorFlow深度学习编程系统对模型进行了实现,并在实验中对模型中各个主要参数逐一进行调整对比,在优化了模型的同时也得到了不同参数对于模型整体识别准确率的影响,并给出一般性的结论。本文构建的信息抽取模型经实验分析及优化后,对于同网站的Web页面识别准确率可达到900%以上。在此基础上,本文又对模型做了改进,使其可以对跨网站同类Web页面进行信息抽取,且信息抽取的准确率同样可以达到较为理想的水平,为提升Web信息抽取的效率及移植性提供了一种新的方法。
其他文献
数字水印技术在图像、视频和文本等多媒体载体上的应用已经成熟,但在嵌入式系统、集成电路设计等领域的知识产权保护仍处于探索阶段。考虑到设计和开发一个新的FPGA芯核电路需
网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需
面向服务的体系架构(Service Oriented Architecture,SOA)的提出,使软件开发从传统的面向对象方式向面向服务方式转变。作为可以在组织内部的异构计算资源中被共享、组合和复
电子商务中产生越来越多的产品和交易信息,使得用户快速找到自己想要的产品变得越来越困难。同时,电子商务企业也面临着如何推荐让用户满意的产品从而提高销售量的问题。电子
基于生物感知的图像显著特征分析在二十世纪九十年代末兴起,并逐渐成为生物视觉感知领域研究的焦点。该方法结合人类心理学和生理学理论知识,基于人类视觉注意机制,模拟人眼
本文是以步态识别为应用背景,主要探讨了步态识别中的模板选择和模板上的特征提取问题。步态识别经历多年的发展,逐渐形成了基于模型和无模型两种基本稳定的框架,基于模型的
随着计算机和通信技术的迅猛发展,多媒体技术也日新月异,网络娱乐节目的内容形式从由文字和图片为主逐渐向视频过渡。网络提供给人们享受丰富多彩视频节目的同时,也给色情、
互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实
路径剖析是动态分析的一项重要技术,通过获取和分析程序中各条路径的执行次数,在编译优化、软件调试和测试等诸多方面发挥重要作用。路径剖析采用在待剖析程序中插装探针的方式
学位