数据预测的图形化编程及应用

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:yaer7201982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据预测在诸多方面都有需求,但是实际使用时难度较大。当前各行业使用的数据预测方法层出不穷、各个算法的可适用范围也不相同,这给程序设计人员在使用的时候造成了较大的困难。通常需要专业的知识才可以进行数据预测的模型设计,同时还需要具备一些应用型程序设计知识,才能较成功的呈现出算法的结果。为了解决这些问题,本文将图形化编程的思想应用于基于机器学习的数据预测中,从理论和实践两方面论述如何对基于机器学习的数据预测算法进行简化,最终实现一个可以给非机器学习专业用户也能使用的数据预测平台,同时对其中的某些步骤进行了研究和改进。本文的具体研究内容和创新点如下:(1)当前机器学习领域内,特别是在机器学习在预测算法的应用上,各种算法之间没有明确的种类划分,导致了无法对算法按执行顺序进行排序,因此无法确定算法之间能否同时使用,为了解决这个问题,参考大数据、数据科学以及机器学习领域的知识,提出一种机器学习的分步方法,将机器学习总体拆分成了三个大阶段(特征工程,模型设计和结果评估),共十个小阶段,通过这种划分可以达成对算法进行顺序的区分,进而通过数据预测的应用背景将各层算法之间进行结合,从而实现图形化编程的效果。(2)在实际应用背景下,数据来源不一定可靠,因此需要对数据进行可信计算。目前流行的可信度评估机制是滑动窗口机制,其在可信度评估时通常需要遍历整个窗口内的数据,当结合KNN、SVM之类的算法使用时,其在滑动窗口内相对于数据规模的时间复杂度都不小于O(n2),并且滑动窗口之外的数据发挥不了作用。为了解决这些问题,本文将生成对抗网络应用于数据的可信度评估,最终构建出的生成对抗网络可以较为全面的考虑已遍历过的数据集的所有数据,且相对于数据规模的时间复杂度为O(n)。(3)针对当前以软集为理论基础的特征选择算法其时间复杂度为指数级的问题,本文通过将软集理论与概率论结合,提出了软方差的概念,从理论上验证了软方差作为软集的特征选择的指标的意义,并提出了一种求解软集参数约简的近似算法,相较于传统算法指数级的时间复杂度以及复杂度不确定(通常视为指数级复杂度)的01线性规划算法而言,该算法在大数据背景下时间复杂度为O(n)。通过上述的研究,结合当前的Web技术,实现让非机器学习专业的用户也可以应用的数据预测平台。考虑到机器学习算法十分消耗计算资源,并且项目较为复杂,本文采用Spring Cloud作为服务器设计的框架,为了实现图形化程序设计,使用当前较为流行的Web端框架Vue+Element UI,另外机器学习使用python语言,为了后续能实现多语言支持,使用远程调用技术,将python的计算进行了服务化。为了简化使用条件,使用当前的REST API的设计思想,构建了一个面向资源的数据预测系统。通过实现的系统,对常用的数据预测方法进行了较为全面的测试实验,从特征工程和预测算法中选取了五个子过程,分别测试这五个子过程对于最终数据预测算法准确度的影响,实验表明了机器学习中各个阶段的实际作用。
其他文献
数字化和大数据的快速应用使得各种应用场景对存储系统整体提出了更高的要求。传统的以写为主的负载场景正在向着读密集型方向逐步偏移,尤其体现在电子商务,各大短视频应用等领域。本文从FUSE以及LevelDB这两种当下使用广泛的存储引擎存在的对于读请求不太友好的问题出发,在LevelDB和原生libfuse上层API中设计实现了一种buffer cache系统,以降低磁盘I/O的比率,从而整体提高系统响应
当今时代,5G、物联网、云计算等技术的高速发展,带来了数据信息量的爆炸式增长,这对存储系统提出了更高的要求。存储系统的存取效率、数据的可靠性将受到严峻挑战。RAID存储系统具有良好的存取性能、优秀的可扩展性再加上相对低廉的成本,因而被广泛应用在各大企业的存储服务器中。本文基于RAID6存储系统,对RAID6编码的布局与重构、RAID6在线扩容方案的优化进行研究,并设计出两种方案。内容如下:本文提出
随着互联网的发展,近几年网络规模和网络流量出现井喷式的增长。数据中心面临的流量压力与日俱增,如何对网络流量进行合理地分配,缓解数据中心的负荷压力,保障网络的链路畅通就成为了需要解决的问题。传统的网络架构由于采取分布式的布局,难以进行全局性的优化;因此本文研究使用具有集中控制特性的软件定义网络(Software Defined Network,SDN)来解决数据中心的链路负载均衡问题。SDN的集中控
随着国内外汉语学习热潮的持续升温,围绕汉语作文自动评分的研究吸引了越来越多研究者的兴趣。作文自动评分的研究目标是利用计算机技术自动给作文进行评分工作,是自然语言处理技术在教育领域的重要应用。该技术不仅能够降低人工评分存在的主观因素的影响,而且能够很大程度上减轻阅卷人的工作负担。目前作文自动评分的研究和系统研发主要是围绕英语展开的,对汉语作文自动评分的理论和实践研究较少且没有得到较好的应用。本文主要
推荐模型作为解决信息过载问题的有效途径,近年来已在各领域得到广泛应用。传统推荐模型由于浅层的结构设计,导致其无法提取到用户和项目的深层次特征。同时传统推荐模型也无法对序列化的用户行为数据进行合理建模,难以学习到序列数据的前后依赖关系。现有的基于深度学习的推荐模型,多侧重于用户历史行为学习,或是侧重于项目内在关系的分析,难以兼顾深层次用户特征与项目特征的有效提取。鉴于此,本文探索基于深度学习推荐模型
句子是自然语言运用的基本单位,也是自然语言处理的研究对象。句子相似度计算是文本相似度计算的基础,在文本理解中具有重要的意义。藏文句子相似度计算处于起步阶段,考虑的因素还不够全面。藏文句子相似度研究时需要一个衡量其性能的评测集,并在此基础上研究藏文句子相似度计算方法。在藏文句子相似度评测集方面,目前还没有合适的藏文相似度评测集,阻碍了藏文句子相似度计算的进一步发展。在藏文句子相似度计算方面,虽然有一
在大量图像数据集的支撑下,基于深度学习的图像修复模型能够更好地捕捉图像中隐藏的高级特征和深层结构,达到更贴近图像特点和人眼视觉的修复效果。结合基于深度学习的图像修复技术对唐卡图像不规则破损区域进行模拟修复,既能够保证修复的效率和质量,还可以避免给唐卡带来二次伤害,对实现唐卡的数字化保护有着重要的社会文化意义和学术实践价值。本文以唐卡的数字化保护为出发点,实现了深度学习在唐卡图像修复中的研究与应用,
目前,图像目标检测已经变成图像处理以及工业领域重点研究的方向之一,其主要任务是从图像中定位目标并对目标种类进行判断。随着图像领域人工智能化的发展,深度学习中神经网络方法逐渐代替了传统的图像处理方法,并在图像目标检测领域取得了巨大的成果。图像目标检测通常会受到光线、目标大小、目标清晰程度的影响,从而导致目标检测的鲁棒性变差。传统目标检测使用窗口滑动的方法去解决图像目标检测的问题,这种方法会消耗大量的
汉字到盲文自动转换是改善我国1700万视障人群生活学习的重要技术。我国先后制定了现行盲文、双拼盲文、国家通用盲文三种盲文标准。由于我国汉盲转换软件欠缺、技术落后,导致非出版及电子盲文资源缺乏,无法满足视障者需求,盲文出版、盲人教育事业也受到限制。现有汉盲转换方法均采用多步转换方法:先对汉字文本进行盲文分词连写,再对汉字进行标调,最后结合分词和标调信息合成盲文文本。该方法需要同时建立盲文分词连写语料
随着社交媒体的飞速发展,社交网络成为人们进行信息交流的主要场所。社团结构作为社交网络的重要特性之一,研究社团结构有助于分析社团形成和网络内在特征,进而对社交网络进行控制与预测。本文研究了相互作用的双层社交网络的社团挖掘算法及其应用。结合传统社团挖掘算法,提出了两种社团挖掘算法并在某双层通信社交网络上成功应用。研究内容如下:1.基于节点相似性,提出了一种链路优化的PL(Priority Louvai