基于深度学习的Web信息抽取研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户：zhsotanlb

【摘要】

：

近年来,海量的信息数据随互联网时代的飞速发展不断注入到Web当中,因此从Web中精确地获取所需信息的重要性也日益凸显。但由于Web页面中信息种类的繁多、结构格式之间的差异

【作者】

：

赵朗

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2017年期

【关键词】

：

信息抽取深度学习循环神经网络 Web

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,海量的信息数据随互联网时代的飞速发展不断注入到Web当中,因此从Web中精确地获取所需信息的重要性也日益凸显。但由于Web页面中信息种类的繁多、结构格式之间的差异等原因,使得传统利用手工编写规则进行信息抽取的方法过分依赖于具有专业领域知识的人的劳动并且通常具有较差的可移植性。循环神经网络在文本语义理解以及处理序列化数据中的优势使其十分适用于对Web页面进行信息抽取,有鉴于此,本文构建了一种基于双层循环神经网络的模型用于Web页面信息的抽取,其中第一层循环神经网络用于理解Web页面中每个文本节点中字词序列的语义,而第二层网络用于理解页面中多个文本节点相互间的序列化描述关系。在模型成功建立之后,本文使用TensorFlow深度学习编程系统对模型进行了实现,并在实验中对模型中各个主要参数逐一进行调整对比,在优化了模型的同时也得到了不同参数对于模型整体识别准确率的影响,并给出一般性的结论。本文构建的信息抽取模型经实验分析及优化后,对于同网站的Web页面识别准确率可达到900%以上。在此基础上,本文又对模型做了改进,使其可以对跨网站同类Web页面进行信息抽取,且信息抽取的准确率同样可以达到较为理想的水平,为提升Web信息抽取的效率及移植性提供了一种新的方法。

其他文献

基于分散隐藏策略的高容量FPGA芯核水印算法研究

数字水印技术在图像、视频和文本等多媒体载体上的应用已经成熟，但在嵌入式系统、集成电路设计等领域的知识产权保护仍处于探索阶段。考虑到设计和开发一个新的FPGA芯核电路需

学位

数字水印分散隐藏策略FPGA压缩机制芯核水印

基于改进哈希算法的快速KNN文本分类方法

网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需

学位

文本分类KNN特征加权词性标注提示词

Web服务QoS灰色定量评估模型研究

面向服务的体系架构(Service Oriented Architecture,SOA)的提出，使软件开发从传统的面向对象方式向面向服务方式转变。作为可以在组织内部的异构计算资源中被共享、组合和复

学位

Web服务Web服务QoS评价灰色系统理论灰色评价模式

基于总剩余最大化和物品上下文约束的协同推荐算法研究

电子商务中产生越来越多的产品和交易信息,使得用户快速找到自己想要的产品变得越来越困难。同时,电子商务企业也面临着如何推荐让用户满意的产品从而提高销售量的问题。电子

学位

电子商务推荐系统协同过滤总剩余最大化上下文约束

基于注意力机制的图像显著区域提取算法分析与比较

基于生物感知的图像显著特征分析在二十世纪九十年代末兴起,并逐渐成为生物视觉感知领域研究的焦点。该方法结合人类心理学和生理学理论知识,基于人类视觉注意机制,模拟人眼

学位

视觉感知显著图显著区域算法评测

行人识别中的模板选择与特征提取

本文是以步态识别为应用背景,主要探讨了步态识别中的模板选择和模板上的特征提取问题。步态识别经历多年的发展,逐渐形成了基于模型和无模型两种基本稳定的框架,基于模型的

学位

步态识别模板选择特征提取

基于多颜色空间和统计直方图的场景分类和目标检测研究

随着计算机和通信技术的迅猛发展,多媒体技术也日新月异,网络娱乐节目的内容形式从由文字和图片为主逐渐向视频过渡。网络提供给人们享受丰富多彩视频节目的同时,也给色情、

学位

多颜色空间场均直方图帧间差直方图典型场景分类目标检测

BBS热点话题发现与监控系统

互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实

学位

BBSWeb文本挖掘爬虫聚类热点话题发现话题监控

有效路径剖析技术研究

路径剖析是动态分析的一项重要技术，通过获取和分析程序中各条路径的执行次数，在编译优化、软件调试和测试等诸多方面发挥重要作用。路径剖析采用在待剖析程序中插装探针的方式

学位

路径剖析有环路径动态分析插装探针路径回溯

超像素分割算法的稳健性分析与一致性评价

学位

基于深度学习的Web信息抽取研究与实现

与本文相关的学术论文