基于TPSN-LS和Hadoop的Web信息抽取技术研究

来源 :西安工程大学 | 被引量 : 0次 | 上传用户：shihaiquanhanhan

【摘要】

：

随着互联网的蓬勃发展,Web成为全球最大的信息源,且其数据规模仍呈指数级别暴增趋势、数据形式也更显多样化、网页间的时间跨度巨大。用户在不同时间对信息的关注度会发生变

【作者】

：

李婷婷

【出处】

：

西安工程大学

【发表日期】

：

2004年期

【关键词】

：

Web信息抽取 Hadoop 复杂网络 TPSN

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的蓬勃发展,Web成为全球最大的信息源,且其数据规模仍呈指数级别暴增趋势、数据形式也更显多样化、网页间的时间跨度巨大。用户在不同时间对信息的关注度会发生变化,因此如何在海量数据中快速、准确地提取出有价值的知识信息已成为目前亟待解决的难题。传统的信息抽取技术适用于特定领域小规模数据抽取,且未曾考虑到网页时间跨度因素对信息抽取精确度的影响。本课题从信息抽取时间同步的角度出发,结合分布式计算框架和存储系统,对Web信息抽取技术进行研究。本文通过深入研究Hadoop Map Reduce编程模型和分布式文件系统HDFS,结合复杂网络时间同步机制,采用DOM树路径和模版相结合的抽取规则进行Web信息抽取,运用TPSN-LS算法优化抽取网页数据同步时间的偏差,提出一种改进的网页复杂网络构造算法,最后在Hadoop平台中实现Web信息抽取系统。主要工作如下:(1)结合复杂网络理论和网页特性对信息数据网页进行复杂网络构造研究,面向信息抽取需求对复杂网络的相关参数进行改进及重定义,最后给出Web信息抽取的时间同步实施流程。(2)将HTML网页转化为XHTML文档,并解析形成DOM树复杂网络进行信息抽取的算法研究。提出DOM树Web信息抽取层次模型,把改进后的TPSN-LS算法应用到DOM树Web信息抽取层次模型中。本文Web信息抽取主要研究内容包括页面预处理、DOM树复杂网络构造、定位数据区域和目标数据抽取等。(3)采用Hadoop进行高效率、并行化信息抽取,设计信息抽取系统的功能模块、抽取流程和HDFS数据存储结构,然后对信息抽取系统进行并行化Map Reduce实现,最后在Hadoop平台上对不同数据规模进行多节点实验,实验表明本系统具有良好的准确性、高效性和可扩展性。

其他文献

淋巴结阳性率对非小细胞肺癌的预后判断

背景和目的目前,肺癌已经成为了世界上对人类健康威胁最大的恶性肿瘤之一,这从各个国家的报道的对肺癌的相关报道看出[3.5.7]。目前仍未有明确的肺癌病因。循证医学表明大量

学位

阳性淋巴率非小细胞肺癌预后

基于单模光纤的契形SPR传感器设计

表面等离子体共振(Surface Plasmon Resonance,SPR)是一种物理光学现象。它利用入射光波在介质与金属薄膜界面处发生全内发射现象时产生的倏逝波,激发沿环境介质与金属薄膜界

学位

表面等离子体共振光纤optiFDTD软件检测实验

湖北省农村低保绩效实证分析

文章以如何评价农村最低生活保障制度的绩效为焦点,借鉴前期研究者的研究成果和各地政府的实践指导文件,依据既有课题组所构建得农村最低生活保障制度的绩效评价指标体系,采

学位

农村最低生活保障制度绩效评估指标体系

GPS\BDS组合单点定位随机模型的研究

目前,利用不同的全球卫星导航系统(GNSS)进行联合定位已经是导航定位技术发展的大趋势。组合卫星系统定位能够大幅度改善单一导航观测卫星不足的局面,从而增强卫星星座的空间

学位

GPS\BDS组合定位单点定位随机模型Helmert方差分量估计熵权法

内容中心网络路由转发策略研究

由于物联网、云计算和大数据的广泛应用,互联网业务量呈爆炸式增长,并在可扩展性、移动性、管理性和安全性等方面暴露出大量问题。现代互联网用户只关心信息内容,不关注数据

学位

内容中心网络路由策略流行度转发时延

基于MVC的重症室监护系统的设计和实现

随着医疗科技的发展,重症加强护理病房(ICU)应运而生,它集中了各相关专业知识与技术,以及医疗中最先进的治疗和监测设备,比如心电图监测仪、血压测量计等各种监测设备。医护

学位

ICU监护管理MVCHibernateFOP

基于串并同步头的并行组合扩频通信捕获技术的研究

扩频通信技术是现代数字通信中快速发展的前沿技术,因其具有强抗干扰能力、低截获性、强保密性、强多址性、强信道适应能力等特点,在移动通信、导航、测距等领域具有广泛的应

学位

并行组合扩频通信捕获技术相关器组并行同步头串行同步头

基于纳米分辨单分子/粒子定位的细胞脂筏结构研究

脂筏是流动于细胞质膜上富含神经鞘脂和胆固醇的纳米结构,对于正常细胞功能和生命活动非常重要。传统的生物化学分离法对脂筏的提取分离复杂而且间接,实验本身更可能改变脂筏

学位

脂筏纳米分辨单分子/粒子定位随机光学重建显微术大景深成像

TDM抽运光纤喇曼放大器的色散研究

随着光纤通信技术的迅速发展,大容量、长距离、超高速通信系统成为限制其发展的重要瓶颈。信号在光纤的传输过程中,受到光纤损耗、色散以及各种非线性效应的影响。光纤损耗造

学位

光纤喇曼放大器时分复用色散反向抽运

复杂水声环境中的稳健信道均衡技术

水声通信已成为近年来研究的焦点,然而水声信道恶劣的传输特性使得实现高速、远距离、高可靠性的信息传输极具挑战性。水声信道的多途扩展导致传输信号在接收端产生严重的码

学位

水声信道抗多途判决反馈均衡空间分集技术矢量水听器

基于TPSN-LS和Hadoop的Web信息抽取技术研究

与本文相关的学术论文