Web信息抽取框架技术研究

来源 :东南大学 | 被引量 : 4次 | 上传用户:alexzhujun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从非结构化和半结构化的互联网信息中抽取结构化信息的技术广泛应用于商业数据挖掘、社交网络分析和垂直搜索引擎等领域。信息结构化包括一系列环节:设定信息抽取范围、网页爬取、网页预处理、定义抽取内容、构建抽取规则和信息存储,进一步可以分为应用依赖的和应用独立的环节。本文提出信息结构化的一般框架,基本思想是设定信息抽取的范围和内容是框架中应用依赖的环节,而其他环节具有应用独立性,通过设计一套描述方法配置应用依赖的操作,将应用独立的环节向开发人员屏蔽,提高框架的通用性和应用开发效率。具体贡献如下:(1)设计并实现了一个通用的Web信息抽取框架。从信息结构化流程中抽象出该框架,框架提供了一个统一的Web信息抽取模型;基于抽象和信息隐蔽的工程原则对框架进行总体设计,将信息结构化过程抽象为应用依赖的信息范围和内容描述与应用独立的其他环节,让开发人员配置应用依赖的操作而屏蔽应用独立的环节,提高框架的通用性和应用开发效率。(2)提出并实现了一种基于知识图谱的词类生成算法。本文引入词类的概念分析网页主题,并使用文档-词类向量对网页分类,而手工构建词类比较困难。本文基于知识图谱自动构建有效的词类,降低了词类构建的难度。(3)提出并实现了一种基于DOM节点分类的信息抽取方法。采用监督学习的方法构建信息的抽取规则,将信息抽取问题看作分类问题,以信息所在的DOM节点为粒度进行分类,提出了DOM节点的样式特征、内容特征和上下文特征。(4)在文献[46]的数据集上进行了网页分类实验,与基准方法进行对比,实验结果表明本文中提出的方法在分类效果上优于基准方案。在从Amazon等网站抽取的图书信息页面数据集上进行了信息抽取实验,其中对图书的标题、作者和价格信息进行抽取,实验结果表明本文提出的信息抽取方法能够取得较好的效果,并且具有较好的扩展性。
其他文献
随着网络的普及和深入,网络蠕虫对计算机系统安全和网络安全的威胁日益增加,尤其是网络蠕虫的多样化传播途径和复杂的应用环境使网络蠕虫的爆发频率激增。而且随着计算机技术
工作流技术是实现企业业务过程建模、业务过程仿真分析、业务过程优化、业务过程管理和集合,最终实现业务过程自动化的核心技术。如何让工作流系统实现异构、分布和松散耦合
智能视频监控技术能自主对场景中的异常行为进行识别,面对日渐严峻的安全形势,其应用越来越广泛。目前大多数异常行为分析系统单纯从图像像素角度进行分析,不同场景下识别复
随着计算机技术、网络技术和分布式技术的发展,计算机应用正从单用户工作模式向多用户协同工作方向发展。计算机支持的协同设计就是在这种背景下产生的,其思想体现了人们的工作
传统的网络管理平台由于受到管理域的限制,只能管理内部用户的设备以及边界路由器,无法区分不同的外部用户的流量行为,也无法给出不同应用的性能评估,不能满足精细化网管的需
虹膜识别技术因虹膜的优秀生物特性,在众多的身份鉴别技术中脱颖而出,被列为最为安全与精确的身份鉴别技术,具有广阔的应用前景与重要的学术研究价值。由于虹膜识别技术应用
伴随着网络技术的迅猛发展,基于网络的企业级应用系统的开发与应用日益普及。随着系统规模的日益扩大,系统的数据安全越来越受到企业的重视。为此,人们设计了各种各样的权限
随着互联网的飞速发展,一方面网络已成为人们获取和发布信息的重要工具。另一方面越来越多的人通过网络表达自己的利益诉求以及思想情绪。因此,对网络上发布的信息进行必要的、
Top-k计算作为一种偏好查询,是数据库中一个最基本的操作,旨在从给定的数据集中查找出用户可能感兴趣的信息。作为一种数据分析的重要工具,top-k计算在网页搜索、电子商务、数据
电信号的测量、计算、分析和研究是电气技术人员工作的主要内容,在电气技术人员的工作过程中还需要经常查询电气资料供参考。所以电气技术人员的工作就离不开万用表、示波器