基于数据集特征的KNN最优K值预测方法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:zhuyanyan09eight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
KNN算法中的参数X的选择一般采取多次交叉验证方法求取,数据规模较大时并不适用。同时,影响参数选择最根本的因素是数据集本身。因此,提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量,然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型,并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明,该方法能迅速预测最优K值,并确保一定的精度。
其他文献
企业的社会责任,曾经作为法人人格的不可分割的—部分,现在变成了—项自愿的社会活动。
我国正处于社会转型的关键时期,近年来,全国范围内的群体性事件剧增,对社会安定造成影响。要减少群体性事件的发生,就必须从其自身具备的特点、发生的原因、以及防控对策入手进行
厦漳泉教育合作与资源共享受经济发达、地理相近、人文同脉、语言相通等因素的驱动,取得了一定的成效,但在利益分配机制的建立、共享平台的搭建、资源合理配置等方面存在着发
蒙古族民歌《嘎达梅林》是一首赞颂英雄的优秀歌曲。民歌中的主人公是蒙古族著名的英雄嘎达梅林。他为了帮助百姓争取土地利益,揭竿起义抵抗封建势力,最终寡不敌众壮烈牺牲。百
勃起功能障碍(erectile dysfunction,ED)是泌尿男科最常见的疾病之一,随着人口老龄化的加快,ED患者正逐年增加,对中老年男性的生活质量影响很大。按需服用磷酸二酯酶V型抑制剂(Phosp
随着经济的不断发展,国有企业面临着新的挑战和困难,由于企业改制和历史遗留问题等,矛盾纠纷不断凸显,信访工作压力巨大。一些社会管理和政策法规滞后于经济的快速发展,一些
以"常山99"为试验菌株,采用室内层架式栽培方法,研究了主料中不同桑枝木屑添加量(0%、30%、40%、50%、60%、70%、100%)对猴头菇菌丝长速、长势、产量和转化率的影响.结果表明
“双师型”教师是职业院校教师队伍建设的特色和重点,能成长为“双师型”教师是高职院校教师共有的最基本追求.高职院校作为培养“双师型”教师的主体,在“双师型”教师的培
利用数值模拟手段分析了雷诺数对二维NACA0012翼型跨声速流动的影响。在相同的马赫数和攻角条件下,数值模拟了不同雷诺数下NACA0012翼型的粘性绕流。分析对比所得计算结果,发现
河北省谷子成本的增长大于产值增长,种植收益呈下降趋势,但现金收益比较可观;谷子单产稳定且单产水平低,产值波动主要受价格波动影响;谷子成本上升主要是由于人工成本上升造