【摘 要】
:
现今社会网络信息化发展越来越快,如何在海量的信息中准确又快速对数据进行分类,并有效的提取出所需要的信息成为了人们亟需解决的一大问题。数据挖掘技术由此诞生,它采用了多学科方法交叉的新方式来解决这一难题。分类是数据挖掘中一种十分重要的方法,它主要是通过使用一些效果优良的分类算法,构建出分类模型来更高效的对待分类样本进行类别预测。其中,KNN算法是一种经典的、实现简单且分类准确率较高的分类算法。由于KN
论文部分内容阅读
现今社会网络信息化发展越来越快,如何在海量的信息中准确又快速对数据进行分类,并有效的提取出所需要的信息成为了人们亟需解决的一大问题。数据挖掘技术由此诞生,它采用了多学科方法交叉的新方式来解决这一难题。分类是数据挖掘中一种十分重要的方法,它主要是通过使用一些效果优良的分类算法,构建出分类模型来更高效的对待分类样本进行类别预测。其中,KNN算法是一种经典的、实现简单且分类准确率较高的分类算法。由于KNN分类算法在分类时要在数据集的全部数据中进行运算,会严重影响分类效率和准确率,因此本文将通过对数据进行预处理的方式来改进KNN算法。本文采用聚类、区域划分等方法针对算法的训练阶段中数据预处理部分提出三种改进方法:(1)使用PK-means++算法对训练样本进行聚类处理,计算出合适的中心作为球心,计算球心与各样本点之间的最远距离为半径,划分成若干个球形区域,并构建初始分类器确定新的训练集。(2)使用等半径球形区域划分方法与禁忌搜索算法,将训练样本分成若干个半径相等的球形区域,并构建初始分类器确定新的训练集。(3)将以上两种方法结合,先使用PK-means++算法计算出合适的球心,再使用禁忌搜索算法计算出合适的半径,最终形成若干个等半径的球形区域,并构建初始分类器确定新的训练集。通过以上三种方法对数据进行预处理后,在新训练集上使用KNN算法对待测试样本进行分类。在选取的6个UCI数据集上进行实验,并将本文改进后的算法与经典KNN算法、SVM算法在分类效率与分类准确率两方面进行对比分析,根据实验结果得出:基于PK-means++的球形区域划分KNN改进算法可以能够提高分类准确率,但是对分类效率影响不显著;基于TS的等半径球形区域划分KNN改进算法能够保证准确率基本不变,分类效率有效提高;基于聚类与区域划分的KNN改进算法能够同时提高分类准确率与分类效率。因此,本文提出的改进算法都比较有效,能够适当的提升分类准确率和分类效率。
其他文献
随着“汉语热”席卷全球,汉语教学事业蒸蒸日上,汉语学习成为时下热议的话题。缅甸作为“一带一路”倡议中交流合作的国家之一,汉语教学的情况得到了学者们的关注,研究内容不断深入与发展。口语教学是汉语教学的重要一环,本文主要研究的是缅甸云华师范学院的口语教学现状,通过调查研究,使相关人员能够清楚地了解目前的口语教学情况,针对总结出的问题,实施更具针对性的教学措施。希望研究能为这所学校口语教学的发展尽自己的
近年来,作为个体差异之一的模糊容忍度成为二语习得中的热门话题,对语言学习产生了巨大的影响。美国心理学家Frenkel-Brunswik最先提出该概念,随后Ely将其引入二语习得领域。与此同时,许多学者认为模糊性是语言的本质属性。因此模糊容忍度在第二语言的教和学当中尤为重要。本研究旨在探讨高中生的模糊容忍度与其英语听力成绩之间的相关性。研究问题如下所示:1.高中生模糊容忍度的现状如何?2.高中生听力
网页是人们获取网络信息的重要载体。中职学校网页设计课程的教学担负着培养网页设计人才的重任,这就促使网页设计课程需要对传统教学模式进行改革和创新。而理实一体化教学模式是以学生为中心,不同于传统教学中将理论与实践教学分离的现象,而是理论与实践紧密结合,能够更好的提高学生的专业实践技能和职业素养,从而提高教学质量。笔者通过阅读大量关于理实一体化教学研究的文献,了解当前国内外研究的现状,同时为本研究提供了
超导谐振器在光子探测以及量子信息等领域有重要的应用,同时,国外许多研究者证明,超导谐振器做为探测器在天文学领域有着很广阔的发展前景。为了更好的研究谐振器的各种优越性能,理解其电路传输特性和准确确定品质因数Q具有重要意义。我们在对超导谐振器进行研究时,首先推导了其理想情况下传输曲线S21,并且首次发明了一种网络分析方法来研究非理想情况下的超导谐振电路。这个二端口网络模型是将超导谐振器分为馈线输入模块
英语是一门交际性很强的学科。商务英语作为一种专门用途英语,其教学目标是培养能够熟练使用英语进行交际和具有扎实商务专业知识的复合型人才,以适应我国改革开放和市场经济发展的需要。对于商务英语专业的学生来说,优秀的课堂交际活动有利于生成高效的课堂,从而使课堂教学效果事半功倍。然而,通过笔者的教育实习发现,当前中职学校商务英语专业的课堂交际活动存在的问题较大,在实际的课堂教学中,课堂交际活动的质量往往不能
情态作为人际意义的重要实现方式,在中国高中生英语写作中被普遍使用,学习者是否可以利用准确的情态来表达人际意义可以作为衡量语言水平高低的标志之一。虽然情态系统视角下的人际意义一直以来受到了语言学界的关注,却很少有人结合中国高中生英语写作这一语篇,来研究情态系统的人际意义表达。在高中生英语写作教学中引导学生掌握情态系统的人际意义表达,可以帮助学生在写作中实现交际意图,提高学生的英语水平,进而提升高中英
保加利亚作为中国“一带一路”倡议的沿线国家,目前开设的孔子学院共有索非亚孔子学院与大特尔诺沃大学孔子学院两所。多年来两所孔子学院致力于传播汉语知识和中国文化。为了调查保加利亚汉语教学的现状,得出有利于推进保加利亚汉语教学的方法和建议,本研究运用三种方法对保加利亚两所孔子学院的“汉语教师”、“汉语学习者”、“教学内容”、“教学方法”和“教学管理”五个主要方面进行研究。首先,运用问卷调查法对保加利亚两
随着全球气候变暖,极端气候呈现出增多增强的变化趋势,台风俨然已成为我国沿海森林林窗的主要驱动力之一,森林林窗呈现增加的趋势。在此背景下,林窗对土壤呼吸的影响研究是森林土壤碳循环和全球气候变化研究中的前沿和热点。海南岛尖峰岭是自然保存较为完好的热带原始林区,也是热带山地雨林的典型地区,极具研究价值。定量评估热带山地雨林林窗对土壤呼吸的影响,可以为热带森林生态系统土壤呼吸的准确估算和土壤有机碳管理提供
随着信息技术的发展,数字图像在信息传递中占据着越来越重要的地位。然而由于受到成像设备硬件条件的限制以及其他环境因素的干扰,实际应用中往往得到的是退化的低分辨率图像,难以满足具体的场景需求。图像超分辨率重建是一种从退化的单幅或多幅低分辨率图像中恢复出高分辨率图像的图像处理技术,该技术凭借较低的成本便可以重建出高分辨率的图像,因此被广泛应用于遥感观测、医学成像、公共安全等领域。基于学习的超分辨率重建算
自然教育是国际教育的趋向,我国国家政策也倡导幼儿园课程要融入自然教育。目前国内幼儿园田园课程的开设逐步兴起,但在提高农村幼儿园教育质量的策略上主要集中于提高师资、去小学化、开设园本自然教育课程这三方面的研究上,将自然课程具体付之实践方面的研究较少,多是对活动的分析总结而不是对课程的探究。因此,本研究借鉴前人的研究方法,构建了田园课程开发向度及课程大纲,探究了田园课程在农村幼儿园开发与实施的可行性和