基于CSS模板的职位信息并行抽取系统设计

来源 :电子科技 | 被引量 : 0次 | 上传用户:haokanhaowan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效
其他文献
交替最小二乘法由于其理论可靠性和实际有效性成为非负矩阵分解中备受欢迎的方法之一.文中基于交替最小二乘法将界约束优化中的积极集共轭梯度法运用到非负矩阵分解当中,算法
通过对水利工程生态调度实施的前提条件和基础的探讨,提出构建水利工程生态调度系统主要内容包括:维持河流基本需水调度、保护水环境调度、保护水生生物及鱼类资源调度、完善
研究下层为线性规划上层为二次规划的非线性双层规划问题.利用单纯形最优性等价条件和基于正态分布的分布估计算法(EDA)求解该问题的全局最优解.为了提高算法效率,结合种群最优
运用基于Matlab的自组织竞争神经网络,选取北江大堤15个水样的稳定同位素和水化学值作为指标特征值,进行了水样的聚类分析。结果表明:T12孔和T9孔北5 m处涌水、江水和T9孔北排
在前人模型实验结果分析的基础上,建立陡立单裂隙模型,将传统单裂隙模型溶质运移机理同泥沙运动原理结合起来,提出新的溶质扩散机理和扩散方程,并进行了实例分析,指出:比重较
<正> (一)住宅法的调整对象每个法都有它特定的调整对象,使得此法与彼法相区别。调整对象的特殊性也决定了立法的必要性。住宅法是调整住宅问题的,它与同样涉及住宅问题的已
介绍一种基于状态机控制的多种增益模式转换的控制方法,采用增益跳变和跳周期调制技术,控制增益模式的切换和开关频率,使输出电压稳定,并使系统有较高的转换效率。基于csmc0.
采用PFC3D程序模拟了崩塌体堆积过程以及崩塌体对桥墩的冲击。结果表明:滑坡颗粒堆积过程中,堆积半径随着时间的延长而增大,崩塌体滑动初期堆积半径扩大速度较快,但是随着时间的
为提高航空发动机温度测试系统的精度和稳定性,提出了一种基于单片机的实时标定方法。利用热电偶测量温度得到热电动势,放大后通过A/D芯片转换为数字量,下位机通过两次函数拟
<正> 高尔夫球场是一项耗资巨大的项目,即使球场已经建成,也还需要投入大量的资金对球场进行维护。而随着银行信贷制度的改革,许多贷款逐步从信用担保转向抵押贷款,于是我们