基于TPSN-LS和Hadoop的Web信息抽取技术研究

来源 :西安工程大学 | 被引量 : 0次 | 上传用户:shihaiquanhanhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,Web成为全球最大的信息源,且其数据规模仍呈指数级别暴增趋势、数据形式也更显多样化、网页间的时间跨度巨大。用户在不同时间对信息的关注度会发生变化,因此如何在海量数据中快速、准确地提取出有价值的知识信息已成为目前亟待解决的难题。传统的信息抽取技术适用于特定领域小规模数据抽取,且未曾考虑到网页时间跨度因素对信息抽取精确度的影响。本课题从信息抽取时间同步的角度出发,结合分布式计算框架和存储系统,对Web信息抽取技术进行研究。本文通过深入研究Hadoop Map Reduce编程模型和分布式文件系统HDFS,结合复杂网络时间同步机制,采用DOM树路径和模版相结合的抽取规则进行Web信息抽取,运用TPSN-LS算法优化抽取网页数据同步时间的偏差,提出一种改进的网页复杂网络构造算法,最后在Hadoop平台中实现Web信息抽取系统。主要工作如下:(1)结合复杂网络理论和网页特性对信息数据网页进行复杂网络构造研究,面向信息抽取需求对复杂网络的相关参数进行改进及重定义,最后给出Web信息抽取的时间同步实施流程。(2)将HTML网页转化为XHTML文档,并解析形成DOM树复杂网络进行信息抽取的算法研究。提出DOM树Web信息抽取层次模型,把改进后的TPSN-LS算法应用到DOM树Web信息抽取层次模型中。本文Web信息抽取主要研究内容包括页面预处理、DOM树复杂网络构造、定位数据区域和目标数据抽取等。(3)采用Hadoop进行高效率、并行化信息抽取,设计信息抽取系统的功能模块、抽取流程和HDFS数据存储结构,然后对信息抽取系统进行并行化Map Reduce实现,最后在Hadoop平台上对不同数据规模进行多节点实验,实验表明本系统具有良好的准确性、高效性和可扩展性。
其他文献
背景和目的目前,肺癌已经成为了世界上对人类健康威胁最大的恶性肿瘤之一,这从各个国家的报道的对肺癌的相关报道看出[3.5.7]。目前仍未有明确的肺癌病因。循证医学表明大量
表面等离子体共振(Surface Plasmon Resonance,SPR)是一种物理光学现象。它利用入射光波在介质与金属薄膜界面处发生全内发射现象时产生的倏逝波,激发沿环境介质与金属薄膜界
文章以如何评价农村最低生活保障制度的绩效为焦点,借鉴前期研究者的研究成果和各地政府的实践指导文件,依据既有课题组所构建得农村最低生活保障制度的绩效评价指标体系,采
目前,利用不同的全球卫星导航系统(GNSS)进行联合定位已经是导航定位技术发展的大趋势。组合卫星系统定位能够大幅度改善单一导航观测卫星不足的局面,从而增强卫星星座的空间
由于物联网、云计算和大数据的广泛应用,互联网业务量呈爆炸式增长,并在可扩展性、移动性、管理性和安全性等方面暴露出大量问题。现代互联网用户只关心信息内容,不关注数据
随着医疗科技的发展,重症加强护理病房(ICU)应运而生,它集中了各相关专业知识与技术,以及医疗中最先进的治疗和监测设备,比如心电图监测仪、血压测量计等各种监测设备。医护
扩频通信技术是现代数字通信中快速发展的前沿技术,因其具有强抗干扰能力、低截获性、强保密性、强多址性、强信道适应能力等特点,在移动通信、导航、测距等领域具有广泛的应
脂筏是流动于细胞质膜上富含神经鞘脂和胆固醇的纳米结构,对于正常细胞功能和生命活动非常重要。传统的生物化学分离法对脂筏的提取分离复杂而且间接,实验本身更可能改变脂筏
随着光纤通信技术的迅速发展,大容量、长距离、超高速通信系统成为限制其发展的重要瓶颈。信号在光纤的传输过程中,受到光纤损耗、色散以及各种非线性效应的影响。光纤损耗造
水声通信已成为近年来研究的焦点,然而水声信道恶劣的传输特性使得实现高速、远距离、高可靠性的信息传输极具挑战性。水声信道的多途扩展导致传输信号在接收端产生严重的码