【摘 要】
:
提出了一种面向TB级别日志文件挖掘需求的日志挖掘技术。采用MapReduce编程模型设计并实现了一种基于子种群联姻策略的GA,并部署到Yarn架构上,使Yarn架构与GA有效结合。在算法Partition阶段,采用Round-Robin策略代替原有的哈希方法,使各个子种群基因更加趋向均匀分布,增加了子种群收敛效率和结果准确性,同时均衡各个节点运行负载,提高了系统性能。经测试,应用该技术的挖掘结果平
【机 构】
:
哈尔滨工程大学计算机科学与技术学院,清华大学计算机系
论文部分内容阅读
提出了一种面向TB级别日志文件挖掘需求的日志挖掘技术。采用MapReduce编程模型设计并实现了一种基于子种群联姻策略的GA,并部署到Yarn架构上,使Yarn架构与GA有效结合。在算法Partition阶段,采用Round-Robin策略代替原有的哈希方法,使各个子种群基因更加趋向均匀分布,增加了子种群收敛效率和结果准确性,同时均衡各个节点运行负载,提高了系统性能。经测试,应用该技术的挖掘结果平均准确度达到93%以上,效率提升接近33%。
其他文献
针对具有模糊持续时间的产品开发项目工期—成本均衡调度问题,进一步考虑了模糊环境下决策者风险偏好(可接受风险水平与乐观指数)对工期—成本均衡的影响,并运用NSGA-Ⅱ算法,结合项目实例,对该问题进行了求解和分析。研究表明,通过调整决策者的可接受风险水平或乐观指数,可以获得一系列不同的Pareto解,以便决策者从中选择其偏好的调度方案。
相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式
连续空间的二元粒子群算法通过搜索空间与解空间相分离,在离散域及连续域优化问题中均得到较好的应用,但标准二元粒子群算法离散化机理存在的缺陷以及"探索"和"利用"的冲突均限制了二元粒子群算法更好的发展。从离散化机理的改进、算法的融合、协同控制以及算法的描述工具等方面入手,讨论了近年来对二元粒子群算法的若干改进及应用;最后评述了二元粒子群算法未来的研究方向和主要研究内容。
针对基于传统高斯滤波的数字稳像算法在运动平滑时使用固定权重,限制了对视频抖动的滤除能力问题,提出了基于无累积误差滤波的数字稳像算法。在运动估计中,对视频帧的特征点进行提取和匹配,基于仿射模型利用匹配的特征点估计两帧间的全局运动;在运动平滑中,直接对当前帧与其前后固定半径范围内相邻帧的运动估计参数进行均值滤波,避免了累计误差的问题。通过滤波在滤除抖动的同时,得到平滑的运动。实验证明,该方法具有更好的
针对现有车辆导航算法仅考虑单一数据,使所得路径实际行程时间比预期更长的问题,首先建立了基于卡尔曼滤波理论的行程时间多步预测模型;其次,提出了综合利用实时数据、行程时间多
针对与城市物流密切相关的双层车辆路径问题(2E-VRP),提出了一种用来求解的混合启发式算法。该算法利用贪心算法的快速性、蚁群算法的搜索多样性以及邻域搜索算法较强的局部寻优能力来提高求解质量,加速算法的收敛性。把该算法应用于22个测试算例和3个大规模的算例,并与同类研究进行了比较。实验结果表明,混合启发式算法不仅能保证较高的精确性,而且具有很高的效率;与精确性最高的同类算法相比,虽然在解的质量方面
针对三类循环移位变换对旋转攻击性能的影响进行了研究,利用概率知识证明了等字间的循环移位变换不影响旋转攻击的攻击方式和效率,给出了多字间的循环移位变换和子字间的循环移位变换影响旋转攻击的概率公式,并由此得出当取旋转数r=1时能使旋转攻击最大限度地通过相应的循环移位变换。
提出将声学特征与语义特征相结合来判断语音倾向性的方法。首先从语音中分别提取语义特征及声学特征,然后将语义特征与声学特征进行组合,最后用基于SVM的两步分类方法进行训练和识别。分析和比较了常用的特征及组合,发现将语义特征与声学特征结合起来后效果明显,比单独使用语义特征最高能提高3%,比单独用声学特征的识别率最高能提高14%。
为了保证城市公交网络的安全运营、提高整个交通网络运行效率,以成都市公交网络为例,分析了该网络的拓扑结构特性,研究了该网络在随机攻击和蓄意攻击下的抗毁性。仿真结果表明,网
针对BOC(n,n)型信号自相关函数存在三个峰值导致伪码捕获模糊性的问题,提出了一种新的基于相关函数的精确无模糊的捕获算法。该算法将信号进行频域的多普勒补偿,通过本地增设QBOC(n,n)支路,利用BOC(n,n)信号自相关以及BOC(n,n)和QBOC(n,n)互相关,经移位±TC/4、取模、求和、平方运算而实现。理论与仿真分析表明,该算法在不改变自相关主峰宽度的情况下完全消除相关副峰的同时,显