论文部分内容阅读
随着数据分析技术的发展,数据分析的应用越来越广泛,数据分析在企业的决策和产品设计中也占据着越来越重要的地位。而由于企业的发展,产品数量、产品类型以及用户数量剧增,企业内部的数据量也呈爆炸性的增长,这些都为数据的存储、运算以及管理带来了极大的挑战,数据潜在价值的挖掘越来越困难。传统的数据分析系统已经不能胜任对海量数据的分析处理工作。而随着云计算技术的日趋成熟,基于云计算的海量数据分析平台应运而生。在基于云计算的数据分析平台中,用于处理数据的能力算法是数据分析的核心部分,而算法的丰富性、算法处理能力的多样性也是衡量一个数据分析平台的实用性的重要标准。因此,如何高效便捷的集成不同类型的第三方数据分析算法成为了一个非常关键的问题。为解决上述问题,本文提出了一种海量数据分析平台中算法自动集成机制。通过此机制,可将第三方开发的数据分析算法方便、快速的集成到现有数据分析平台中,并且可与平台中其他算法协同运行,完成更为复杂的分析流程。本文研究内容包括:1、算法模型的建立:对基于海量数据分析平台中的算法的特征进行研究,建立一个统一的算法模型,实现对不同算法的统一描述。2、算法的自动模型化:对不同算法的自动模型化,将各种各样的算法自动转换为符合算法模型描述的模型化算法。3、模型化算法在平台中的自动集成:使数据分析平台可以自动的识别模型化之后的算法,并将其集成到平台的算法资源库中。4、算法的管理:包括算法的删除、修改、更新等内容。5、最后,本文将该机制运用到真实的案例中,将算法快速、便捷的集成到平台中,验证了论文成果的可行性。