面向数据分析的探索式服务组合推荐技术研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:aiyanxiyanxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物联网时代的到来,产生了海量数据,利用机器学习对其进行数据分析,可以从历史经验中提取相关信息,使其产生知识,并利用这些知识做出新的决定。在数据分析领域,技术人员要根据指定数据集构建合适的机器学习模型是一件非常复杂且耗时的事情,在此过程中需要在不同阶段选择合适的算法并不断调整优化算法参数,往往需要多次探索才能得到最终结果,对技术人员有很高的专业背景要求。针对于数据分析领域中算法选择难、调优难的问题,本文提出一种面向数据分析的探索式服务组合推荐方法,该方法根据数据特征及服务关联关系为用户推荐数据分析服务,辅助用户选择较优的算法,提高数据分析效率和机器学习模型性能。论文的主要工作包括:第一,提出了面向数据分析的探索式服务组合推荐方法,分为用户探索部分和系统支撑部分。用户探索部分支持最终用户参与的灵活式服务组合,用于应对探索式数据分析流程构造过程中数据分析算法不确定、服务间逻辑关系不确定的问题,负责对用户探索式构造数据分析流程提供支持,用户选取数据服务,配置数据分析任务,通过服务推荐得到一组服务推荐列表,多次探索之后,得到最终数据分析结果;系统支撑部分负责在数据分析过程中提供服务推荐,并完成对数据分析流程的执行任务。第二,提出了结合数据特征与服务关联的服务推荐算法,按步骤分为:服务关联挖掘算法、数据分析流程生成算法和单步服务推荐算法。其中,服务关联挖掘算法可以从历史数据分析流程中挖掘出常用的服务关联关系;数据分析流程生成算法综合数据特征和服务关联,生成一组数据分析流程;单步服务推荐算法根据性能和耗时因素从数据分析流程中提取出一组数据分析服务,作为推荐结果。第三,设计和实现了探索式服务组合系统。系统主要分为五个部分:服务库,探索式数据分析环境,服务推荐模块,服务关联关系挖掘模块以及执行引擎。用户从服务库内选取数据服务,配置数据分析任务,在服务推荐模块的辅助下探索式构造数据分析流程,最终流程经过执行引擎得到最终结果;服务关联关系挖掘模块负责为服务推荐模块提供推荐依据。最后进行了实验验证,实验一对比了不同数据分析流程生成方法生成的数据分析流程性能水平和耗时长短,结果表明,相较于主流Auto ML工具Autostacker,TPOT,Alpha D3M,本文所用的方法在耗时方面极大缩短了数据分析流程生成时间,将总耗时缩短至分钟级,与Alpha D3M相当;在性能方面也达到了当前Auto ML工具生成的数据分析流程性能中的较好水平。实验二比较了使用本文提出的服务推荐方法获得的数据分析流程与其他主流Auto ML工具生成数据分析流程的性能,然后与TPOT比较了服务推荐效果,结果表明,与主流工具TPOT、Autostacker、Alpha D3M相比,使用本文提出的服务推荐方法构造出的数据分析流程可以达到目前主流Auto ML工具中等及以上的性能水平;从服务推荐结果的精确率与召回率来看,相比于TPOT,本文提出的服务推荐方法表现也要更好。
其他文献
大数据分析、处理技术是计算机领域热点研究问题之一。然而,大数据往往伴随具体业务信息和商业机密,科研人员很难获得有效的大数据。因此,如何根据有限的真实数据生成仿真大数据的技术成为学术界需要研究和解决的问题。具体体现在:构建大数据分析的机器学习模型时需要大量的训练数据,大数据处理系统需要大量的测试用例集等等。针对上述技术需求,本文讨论两种大数据集生成算法和应用技术,包括:离散和级联大数据生成算法和北京
众所周知,风是一种非常常见的自然现象,风速风向也是非常重要的气象参数。风速风向的测量对于航海、航空、科学研究、风力发电以及工农业生产都具有重要意义。传统的机械式测风仪器难以满足众多领域对于风速风向的高精度测量要求,微电子技术的飞速发展和软件算法的改进使得时间测量精度和计算机的处理能力得到大幅提高,出现了超声波测风仪等高精度的测风设备,与传统的测风设备相比无机械磨损、精度高、能适应更加复杂的工作环境
辊弯成形是一种将金属板料连续地通过轧机,横向弯曲成所需要横截面形状的塑性加工技术,具有成形精度高、能大批量连续生产等优点。微成形工艺是生产至少两个方向处于亚毫米范围零件的塑性制造工艺。微型构件市场需求的显著增加,极大地推动了微成形技术的发展。为了实现对具有微小截面特征的细长金属零件的高效率连续生产,研究者们提出了微辊弯成形工艺。目前对传统辊弯成形的研究已经比较深入,但对刚起步的微辊弯成形中材料的复
水资源的回收再利用能够有效解决水资源短缺的问题,水资源再利用包括很多复杂工序,其中利用沉淀效应去除水中杂质是必不可少的一环。但这也会造成沉淀池中淤泥的堆积,为保证水资源再利用的持续进行需对沉淀池中的淤泥进行定期清理,因此需要有一种设备能够实时监测沉淀池中淤泥的高度。针对上述问题,本课题设计了一种投入式超声波泥位测量系统以实现沉淀池泥水界面的检测工作。为适应工业生产现场的复杂环境,该系统应具有较高的
云计算的高虚拟化、高扩展性和廉价性等优势,使得个人和企业愿意把本地数据的存储和计算外包给云端服务器。然而,数据的隐私性和完整性问题严重影响着云存储技术的应用推广。出于安全性考虑,数据在外包到云服务器之前通常需要进行加密。然而,加密却破坏了数据文件之间的关联性,给用户的文件搜索管理带来巨大挑战。可搜索加密技术的出现使得用户能够对密文实现关键词的搜索。现有可搜索加密方案通常假设云服务器是诚实且好奇的,
推荐系统作为电子商务平台的重要组成部分之一,能够有效地捕获用户的兴趣特征,实现个性化推荐任务。作为推荐系统的重要分支,序列型推荐系统能够进一步捕获用户兴趣特征的动态变化,实现实时推荐任务。尽管经典的序列型推荐方法能够较好的为用户提供推荐服务,但是本文认为这些方法依旧存在一些缺陷。一方面,这些方法在对用户兴趣建模时往往难以捕获用户行为序列项目间的复杂转换关系以及用户对于不同项目的不同关注程度;另一方
新词指的是在词典中不曾存在,但现在被人们广泛使用的词语。随着互联网的飞速发展,大量新词也随之涌现。这些新词的出现给诸多自然语言处理任务带来了挑战,因此新词发现是存在一定价值与意义的。传统新词发现方法通过总结新词模板与统计特征提取新词,但其只能针对于特定的领域进行新词发现,或是只能提取长度较短的新词语。针对以上问题,本文提出了一种将深度学习和新词发现相结合的方法,在BiLSTM+CRF模型上融合了多
区块链是密码学、分布式最终共识机制、P2P传输等不同技术的交叉融合,以其去中心化的特征,创造了一个不可篡改的链状可信环境,受到了当前金融、法律、物联网等不同行业的广泛关注。区块链技术已经成为当下研究的热点话题,而如何在项目实际应用中提升区块链的安全性和效率则是目前亟需解决的难题。针对以上问题,本文将区块链底层架构中不同层级作为研究对象,对其中共识机制和智能合约中关键点进行全面分析;并结合冗余机制和
增强现实是以三维注册、虚实融合与人机交互为基础,实现虚拟物体和真实场景相互融合的技术。增强现实任务的核心问题是对现实场景中的物体进行准确、快速地识别和跟踪,以便将虚拟物体准确地放置在相应的位置上。本文针对增强现实中的三维注册技术进行研究,主要采用基于深度学习的方法对目标检测和位姿估计算法进行了研究与改进,提出了一个鲁棒性强且能满足实时需求的物体识别系统,本文主要贡献如下:(1)针对传统目标检测模型
随着计算共形几何的快速发展,得益于其对复杂曲面变形分析的处理能力,这给了我们将它运用到软体机器人曲面变形分析领域的灵感。针对软体机器人曲面变形的几何形状的非线性,进而导致在其变形过程中无法准确的对其进行度量,以及准确的描述,于是以计算共形几何为基础,引入Ricci流理论和计算曲面共形模的方法,将曲面形态变化问题转为曲面黎曼度量变化问题,进而建立数学模型对软体机器人的曲面变形进行定量描述。首先根据曲