基于MapReduce虚拟机的Deep Web数据源发现方法

来源 :通信学报 | 被引量 : 14次 | 上传用户:vitaminchina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现DeepWeb海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类、页面过滤分类、表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效提高爬虫数据源发现的效率,避免网络及物理资源的浪费,验证了云计算技术在Deep Web数据挖掘方面的可行性。
其他文献
电网电压不平衡或交流系统发生故障是电压源换流器型直流输电(VSC-HVDC)实际运行时不可避免的问题。针对这一问题,提出了一种基于负序电压实时补偿的控制策略。换流站控制系
多用户MIMO-OFDM信道的色散效果可以看成是一组由频点(FB)观测值组成的瞬时混叠结构。如果一个新的用户加入时,意味着引入新的干扰,信道矩阵结构被扩大。由于扩大的矩阵含有已知和未知2部分信息,由此需要设计一个针对2部分信息的盲结构。选择盲分离方法,利用信号间存在的相关性,推导出新用户的混叠结构参数矩阵,然后在每个FB上分离出不同用户的信号,由于利用了已知信道的信息,盲分离后产生的不确定性被纠正
提出了一种基于重要度扩散和自适应采样的图像和视频自适应缩放方法,它在整体概貌和重要区域保护之间进行折衷处理。重要度扩散函数将删除像素的重要性扩散至其邻域,以避免过多删除非重要区域而造成图像整体概貌失真。自适应采样函数则通过对各行和列像素的重要性进行权值的采样,以保护重要区域。此外,通过引入帧间一致性约束,该算法也适合于视频缩放。仿真实验结果表明:与剪切、Seam Carving等方法相比,本算法取
近年来,宽带技术发展迅猛,大众对通信网络的传输速度和交换能力也提出了越来越高的要求。宽带光纤接入具有传输距离远、传输容量大、传输质量高、可扩展性好、运维成本低、抗
针对异构网络环境下介质独立信息服务(MIIS)的匿名访问需求,提出了一种MIIS匿名访问协议。协议中用户和信息服务器在家乡网络服务器的辅助下,既能实现双向认证,也能保护用户的隐私性。提出的协议与已有协议相比具有较好的性能,并且在CK模型下是可证明安全的。
在译码转发中继系统中,非规则重复累积(IRA)码的设计本质是设计码率兼容IRA码。由于通过校验分裂得到的码字的不同部分经历不同的信噪比,因此给出了基于校验分裂的修正的高斯近似的密度进化算法来分析IRA码的门限并且用差分进化算法对其优化。实验仿真证明与传统的密度进化算法得到的IRA码相比,当误帧率是10?3时,优化得到的码字大约有0.5dB的增益。