分布式JS解析在web信息采集系统中的研究与应用

被引量 : 1次 | 上传用户:redhatping
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络在人们生活当中的应用范围越来越广泛。一方面,由互联网产生的海量数据中包含了许多有利用价值的信息,这就对web信息的采集提出了需求;另一方面,越来越多的新技术被运用于互联网领域,其中动态网页技术,尤其是动态脚本技术的运用,很大程度地提升了网页的功能性、美观性以及用户使用时的体验,但由于原有的网页信息采集系统不能够对脚本进行解析,所以无法实现对动态网页信息的采集。针对此问题,本文设计实现了一个基于分布式计算的网页脚本提取解析系统,并将其与原有信息采集系统相结合,从而实现了信息采集系统对动态网页信息准确、高效的采集。首先,通过对JavaScript脚本语言和常用解析引擎的研究分析,设计了脚本提取解析的流程,主要包括脚本程序的提取和解析环境的构建。其次,将JavaScript脚本提取解析与Hadoop分布式计算相结合,通过对现有Hadoop调度算法的研究分析,结合脚本提取解析系统实际运行所处的异构集群环境,设计了异构集群环境下基于和声搜索的调度算法。再次,为了将脚本提取解析系统与原有信息采集系统相结合,以原有的Nutch系统的文件存储结构为基础,设计了系统整体文件结构和数据存储格式。最后,完成了系统的MapReduce编程实现,并在实际的Hadoop平台上进行了测试。通过对测试结果的分析,验证了整合脚本提取解析系统之后的信息采集系统能够对动态网页进行信息采集,并且采用基于和声搜索的调度算法在异构集群环境中提高了脚本提取解析任务的执行效率。可见本文提出的方案实现了信息采集系统对动态网页信息准确、高效的采集,为信息采集相关领域提供了一种技术改进思路。
其他文献
介绍了几种有代表性的鎓盐类阳离子光引发剂——芳基重氮盐、芳基鎓盐和二烷基苯甲酰硫盐的研究进展情况,探讨了各引发剂的光解机理和优缺点,并提出了增强鎓盐光敏性的方法和
应用商业有限元模拟软件DEFORM-3D对TA2异型截面冷轧过程进行了数值模拟,分析了轧件稳定轧制时的等效应力、等效应变分布规律,并且研究了不同侧斜度下孔型对金属变形的影响,
飞石是露天爆破工程中最为严重的潜在事故因素之一,是造成人员、设备、结构物和建筑物损伤的主要原因之一。分析了爆破飞石产生的原因,介绍了飞石产生的部位,通过对飞石飞行
随着我国基本建设工程的迅速发展,对各种施工机械的需求量有了大幅度的增加,对质量也提出了更高的要求。混凝土湿喷机作为地下工程、岩土工程、市政工程等领域内广泛使用的一种
先进微电子技术的飞速发展推动了于功能结构一体化新型热管理材料的研发。以高导热金刚石/金属基(铝、铜、银)复合材料为重点,综述了其优异的性能特点、近年来国内外的制备方
巴金的《随想录》是当作“遗嘱写”的,这个命题使我们感到一种真诚的肃穆和神圣的氛围。《随想录》摒弃虚假与矫情,反对欺骗与花言巧语。人与历史的关系是《随想录》的基本话
本文系统地介绍了国内外柴油机排气后处理技术的研究现状,分析了氧化催化转化器和微粒捕集器的发展现状及存在的问题,以此为基础,提出了一种柴油机排气净化系统,该系统采用催化转
利用加权平均法定义了复合Copula函数.基于复合Copula函数的性质定义了投资组合的风险测度值相对Copula-CVaR(RCCVaR).利用RCCVaR风险度量方法建立动态的均值-RCCVaR的投资组合
断裂力学已被学术界公认是一种估算焊接结构件疲劳寿命最有效的解决方法,但在该方法的应用过程中,还存在着一些混乱现象,尤其对疲劳寿命影响较大的初始裂纹在现有技术难以检
生物浸出作为一项最大限度地利用矿藏资源的绿色冶金技术,近年来其工业化应用得到了巨大的发展。详细介绍了生物槽浸(Tank Bioleaching)和生物堆浸(Heap Bioleaching)两大类