基于Hadoop的Web页面正文抽取技术的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ljdoctor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和网络用户不断增多,网页信息量呈井喷式增长。Web信息抽取现已经成为当前的研究热点之一。当前Web信息是网络用户获取信息的重要来源,由于Web信息的动态变化性,在数量巨大的网络信息库中用户往往无法快速的捕捉网页中的正文信息。如何从巨大的互联网资源库中快速并且准确的对页面中的噪音进行过滤,抽取出网页中对用户有用的信息是当前抽取领域的难题。本文提出的基于Hadoop的Web页面正文抽取方法正是解决上述问题的方法之一。论文研究如何在面对海量规模数据的Web页面的情况下,确保Web页面正文抽取的高效性和准确性。研究内容主要包含两部分:在第一部分中,本文分析现有的基于视觉信息的分块方法,并对原算法的分隔迭代过程进行改进,生成语义较为完整的网页信息块且形成网页视觉块树。在第二部分中,本文充分利用网页块的样式、内容、词频等特征并进行分析,根据重要度进行正文网页块识别。在综合本文研究内容的基础上,分析典型的系统结构特点,设计实现基于Hadoop的Web页面正文抽取系统。对系统进行数据源的测试,实验结果表明本文提出的信息抽取算法有较好地准确率以及较高的性能。该系统良好的解决海量网页的抽取问题。本文提出的基于Hadoop的抽取方法为海量数据模型提供了新的解决思路,分布式计算模型能够较好的解决性能问题。
其他文献
学位
关系数据库存储的数据具有语义模糊性。例如,数据库中存储“高”、“矮”、“胖”、“瘦”、“适度”、“一般”等数据导致了数据的模糊性,某些字段上存储的NULL值(或允许为N
本文结合不相交多径路由和缠绕多径路由,建立了一种基于网络编码的可靠传感器多路径路由模型(NC-RMR),通过一次路由发现建立多条通信链路,减少了路由发现和维护次数,在数据传
随着流媒体技术在国内的飞速发展,宽带普及率的稳步提高,越来越多的用户开始更为频繁地通过宽带网络享受多媒体服务。这不仅推动了诸如数字电视、交互式网络电视及其相关产业
随着Internet的飞速发展以及流媒体领域的不断突破,备受关注的IPTV(交互式网络电视)业务已被推向了这个技术时代的尖端。作为一种数字视频业务,IPTV必须和传统的有线电视竞争
图像运动模糊是由于在曝光过程中场景与相机之间发生了相对位移而产生的一种客观的物理现象。目前,大多数对运动模糊图像研究的文献都集中在运动去模糊上。但运动模糊图像通
随着互联网的快速发展,电子商务在人们的生活中占据着越来越重要的地位。在电子商务的整个环节中,数据处于最为核心的位置,处理好数据之间的关系,直接影响着电子商务商城的稳
利用可编程图形硬件的高性能浮点运算能力和并行处理能力来加速数据压缩算法已逐步成为数据压缩领域的研究热点。在众多数据压缩方法中,矢量量化因其压缩比高和解码相对简单,
天然岩石节理裂隙普遍存在于各类岩石中,了解节理裂隙的性质对于地质、地球物理、采矿、石油工程、水文地质以及核废料隔离都具有重要意义。岩石裂隙的数值测量是岩石节理裂隙
传统计算机体系结构中,操作系统内核作为最底层软件,一旦崩溃将导致整个系统失败,所有运行其上的应用程序都将失去维护自身状态和继续运行的机会。在传统的进程恢复技术中,有些需