基于Hadoop的Web页面正文抽取技术的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：ljdoctor

【摘要】

：

随着互联网技术的快速发展和网络用户不断增多,网页信息量呈井喷式增长。Web信息抽取现已经成为当前的研究热点之一。当前Web信息是网络用户获取信息的重要来源,由于Web信息

【作者】

：

王健

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2017年期

【关键词】

：

Web信息抽取海量数据网页分块重要度 Hadoop

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的快速发展和网络用户不断增多,网页信息量呈井喷式增长。Web信息抽取现已经成为当前的研究热点之一。当前Web信息是网络用户获取信息的重要来源,由于Web信息的动态变化性,在数量巨大的网络信息库中用户往往无法快速的捕捉网页中的正文信息。如何从巨大的互联网资源库中快速并且准确的对页面中的噪音进行过滤,抽取出网页中对用户有用的信息是当前抽取领域的难题。本文提出的基于Hadoop的Web页面正文抽取方法正是解决上述问题的方法之一。论文研究如何在面对海量规模数据的Web页面的情况下,确保Web页面正文抽取的高效性和准确性。研究内容主要包含两部分:在第一部分中,本文分析现有的基于视觉信息的分块方法,并对原算法的分隔迭代过程进行改进,生成语义较为完整的网页信息块且形成网页视觉块树。在第二部分中,本文充分利用网页块的样式、内容、词频等特征并进行分析,根据重要度进行正文网页块识别。在综合本文研究内容的基础上,分析典型的系统结构特点,设计实现基于Hadoop的Web页面正文抽取系统。对系统进行数据源的测试,实验结果表明本文提出的信息抽取算法有较好地准确率以及较高的性能。该系统良好的解决海量网页的抽取问题。本文提出的基于Hadoop的抽取方法为海量数据模型提供了新的解决思路,分布式计算模型能够较好的解决性能问题。

其他文献

DNA差异甲基化位点识别及其在癌症诊断中的应用

学位

基于模糊本体的关系数据库语义检索研究

关系数据库存储的数据具有语义模糊性。例如,数据库中存储“高”、“矮”、“胖”、“瘦”、“适度”、“一般”等数据导致了数据的模糊性,某些字段上存储的NULL值(或允许为N

学位

关系数据库模糊本体语义检索模糊隶属函数

基于网络编码的可靠多径路由协议研究

本文结合不相交多径路由和缠绕多径路由,建立了一种基于网络编码的可靠传感器多路径路由模型(NC-RMR),通过一次路由发现建立多条通信链路,减少了路由发现和维护次数,在数据传

学位

网络编码不相交多径缠绕多径可靠传输无线传感器网络

流媒体业务中间件之媒体分发策略研究与实现

随着流媒体技术在国内的飞速发展,宽带普及率的稳步提高,越来越多的用户开始更为频繁地通过宽带网络享受多媒体服务。这不仅推动了诸如数字电视、交互式网络电视及其相关产业

学位

媒体分发流媒体服务器接口封装流媒体业务中间件

基于网络损伤和流媒体特征的IPTV视频QoE评估方法的研究和应用

随着Internet的飞速发展以及流媒体领域的不断突破,备受关注的IPTV(交互式网络电视)业务已被推向了这个技术时代的尖端。作为一种数字视频业务,IPTV必须和传统的有线电视竞争

学位

网络损伤流媒体特征视频质量帧率IPTVQOE

单幅图像运动模糊参数判定与去模糊研究

图像运动模糊是由于在曝光过程中场景与相机之间发生了相对位移而产生的一种客观的物理现象。目前,大多数对运动模糊图像研究的文献都集中在运动去模糊上。但运动模糊图像通

学位

运动模糊局部模糊检测反卷积长尾分布超拉普拉斯

电子商务海量数据的获取、存储及检索

随着互联网的快速发展,电子商务在人们的生活中占据着越来越重要的地位。在电子商务的整个环节中,数据处于最为核心的位置,处理好数据之间的关系,直接影响着电子商务商城的稳

学位

电子商务数据存储海量数据数据检索实时数据查询数据获取

基于GPU的大规模体数据压缩算法研究与实现

利用可编程图形硬件的高性能浮点运算能力和并行处理能力来加速数据压缩算法已逐步成为数据压缩领域的研究热点。在众多数据压缩方法中,矢量量化因其压缩比高和解码相对简单,

学位

体压缩矢量量化空间自相关函数CUDAGPU高维地震数据可视化系统

基于小波的岩石节理裂隙图像去噪方法研究

天然岩石节理裂隙普遍存在于各类岩石中，了解节理裂隙的性质对于地质、地球物理、采矿、石油工程、水文地质以及核废料隔离都具有重要意义。岩石裂隙的数值测量是岩石节理裂隙

学位

数字图像图像处理邻域去噪小波变换

基于Xen的进程恢复系统的设计与实现

传统计算机体系结构中，操作系统内核作为最底层软件，一旦崩溃将导致整个系统失败，所有运行其上的应用程序都将失去维护自身状态和继续运行的机会。在传统的进程恢复技术中，有些需

学位

Xen内核崩溃进程恢复

基于Hadoop的Web页面正文抽取技术的研究

与本文相关的学术论文