基于深度学习的分类预测方法研究及应用

来源 :东南大学 | 被引量 : 14次 | 上传用户:turtle0906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是人工智能的一个重要分支,也是近年来数据挖掘的新方向。深度学习脱胎于人工神经网络,其隐藏层层数比浅层神经网络更多,这也是“深度”一词的由来。与传统神经网络不同,深度学习增加了无监督学习。深度学习在分类预测的应用上有很大的研究空间。本文的目的是研究深度学习算法在分类预测上的应用,具体应用方向是使用深度学习算法根据学生开题前的信息预测学生写出优秀论文的可能性。通过本文应用课题的研究,在开题时,学校和导师就可以及时挖掘出有潜力写出优秀毕业论文的学生,然后用接下来的时间重点培养这些学生。这一分类预测应用研究可以为擅长处理大数据和高维数据的深度学习算法在面对数据集存有缺陷时如何发挥可行性和优越性提供参考。本文使用栈式降噪编码器这种深度学习算法进行深度学习的应用。栈式降噪编码器采用多个降噪自动编码器叠加的形式构成深度学习模型的隐藏层,并使用softmax regression分类器作为深度学习模型的输出层。算法的核心是先进行无监督逐层降噪预训练,在无监督预训练的基础上进行有监督学习。深度学习应用的输入样本来源于学生信息数据库。面对学生信息数量较少,正负样本不平衡等问题,本文在数据处理经验不足的情况,参考批量学习和在线学习的优缺点,充分利用冗余样本,增大少数类样本的比重,解决样本数量不足的问题。本文还采用人工重复属性的方式来增加样本维度。本文中深度学习的预测结果可以轻易达到90%以上的正确率。本文给出了不同参数设置下算法具体的分类预测结果,这些结果可以清楚的说明深度学习参数对分类预测结果的影响。本文还给出了深度学习算法在样本冗余和属性增维下的分类预测结果,以此来说明大数据和高维数据可以给深度学习更大的探索空间。本文使用学生信息数据集和不需要进行数据处理的UCI机器学习数据集作为深度学习的输入数据集。本文通过对比试验证明了深度学习算法比起纯粹的无监督学习算法,纯粹的有监督学习算法,普通的机器学习算法和普通的神经网络算法具有优越性。本文还证明了深度学习算法是经验模型。数据集的维度越高,样本数量越多,深度学习算法可以调节的参数越多,深度学习的优势越明显。本文中深度学习算法的应用有一定不足,不足主要来自于两方面,分别是样本的不足和算法的不足。输入样本存在两个严重的问题,一是样本数量不足,二是归一化困难。算法的不足是由于深度学习算法不存在全局最优。本文证明了数据集即便存在样本数量少等问题时,深度学习仍可以在分类预测上发挥优越性。本文证明了深度学习算法虽然是经验模型,但在实际应用中仍需理论的支持。
其他文献
目的探讨老年性冠心病并发心律失常患者的临床护理效果。方法将132例冠心病合并心律失常患者随机分为观察组66例和对照组66例。对照组给予心血管科常规护理,观察组给予整体护
目的:优选盐酸青藤碱自溶性微针的处方工艺,并考察微针对盐酸青藤碱经皮渗透性能的影响。方法:采用浇注法制备盐酸青藤碱微针,以成型性和机械性为指标筛选可达到最佳载药量的
<正>本案地位于袍江经济开发区,在规划设计中遵循体现跨世纪新兴高科技产业特征,尊重园区生产功能,尊重人们生活工作环境需求,力求形成一个景观优美,充满人情味的高新技术园
金融全球化的浪潮推动金融产品的不断创新,许多国家的证券市场都建立起投资者适当性规则,监管金融中介机构、保护投资者利益。在研究其他国家法律规定的基础上,梳理我国资本
<正>【教材分析】《灰椋鸟》这篇散文描绘了灰椋鸟归林时的壮观景象,表达了作者对鸟儿的喜爱和对林场人辛勤劳动的敬仰之情。其中文章的3~5自然段是文章的重点,对灰椋鸟的归林
目的探讨免疫检验的质量控制方法与效果。方法该研究选取该院于2012年3月—2014年8月期间实施免疫学检验的10000份资料作为研究对象,对其相关资料从收集、实验标本、检验仪器
伴随互联网技术的发展和电子商务的推动,人类发展进入了互联网+的时代。在互联网+发展背景下,对于农产品的网络销售提供了广阔的发展空间,同时有助于推动农村信息化研究的逐
实践教学是理工科专业教学中必不可少的重要教学环节,为解决专业课程中理论教学与实践应用教学衔接不及时、不紧密造成理论知识理解不深刻甚至阻碍创新实践应用研究的问题,以
目的:研究二去水卫矛醇(DAG)对人肺癌细胞株的体外增殖及凋亡的影响。方法:Cell Counting Kit-8(CCK-8)法检测DAG对11株人肺癌细胞株Calu-1,NCI-H1650,NCI-H358,NCI-H1299,HC