非独立同分布KNN分类算法研究

来源 :齐鲁工业大学 | 被引量 : 2次 | 上传用户:dianshenshizhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从数据中挖掘出有价值信息的过程。分类算法是数据挖掘学科的主流研究课题之一,任务是将未知类别的数据项映射到相应类别。KNN算法是分类挖掘领域应用最广泛的分类算法之一。本文针对KNN分类器进行了研究和分析,并围绕算法的不足在决策规则、相似性度量方面进行了改进。论文主要工作如下:传统KNN分类器的决策规则是在选定近邻之后,对k个近邻实例进行类别统计从而预测待测实例的类标签。显然,这种简单的统计判别方式没有有效利用近邻样本的信息。针对KNN算法决策规则的缺陷,本文引入近邻支持度和类可信度的概念以生成新的决策规则。首先,以近邻样本的相似度信息为关注点,引入近邻支持度的概念;然后,通过考虑样本分布情况来计算每个类别的类可信度。实验表明,改进的ND_KNN算法提高了分类器性能,是一种有效、稳定的分类算法。传统KNN分类算法衡量数据集中的对象间关系时,往往认为各个对象间是独立同分布的,忽略对象间的相互作用和影响。改进的CS_KNN算法基于非独立同分布思想,通过挖掘对象的特征、特征值等多层次的耦合关系来构建新的相似性函数。首先通过衡量各个特征对分类的重要程度,研究特征与类别间的非独立同分布性进而形成类特征权重;其次,利用类特征权重形成对象间的特征内非独立同分布函数;然后,分析不同特征间的影响并生成特征间非独立同分布函数;最后将对象间的特征内、特征间、特征与类别间的非独立同分布关系融合到相似性度量中,构造关联相似性规则。实验表明,与传统KNN算法相比,基于非独立同分布思想改进的CS_KNN算法分类效果有明显提高。
其他文献
劳务派遣是一种涉及三方主体,以“雇用”和“使用”相分离为最主要特征的新型用工形式,是近几年我国劳动法领域学术研究的热点。从劳动合同法颁布实施4年多来的实际效果看,我国
菲茨杰拉德是美国二十世纪二十年代最杰出的文学代表。他的代表作《了不起的盖茨比》深刻地反映了那个时期的时代特色――美国梦的破灭。盖茨比悲剧性结局在于他的理想之梦与
近几年来,随着我国高等教育的普及程度不断提高,高校的在校生规模不断壮大,在校生人数屡创新高。与此同时,大学毕业生择业难的问题逐年显现。大学生就业难在当今社会已经是一个普
【总体阅读叫考】一、课文分四个部分,每个部分所写的内容各有什么侧重点?作者是怎样将这四部分联结成一个有机的整体的? 二、第一部分开头第一句话“大自然是崇高、卓越而
<正>1、不要怕被别人利用,人家利用你说明你还有用。2、吃是实功,赌是对冲,嫖是落空。3、花一文钱要收到十文钱的效果,这才是花钱能手。4、做事要做到刀切豆腐两面光。5、做
会议
判断力、论证力、推理力、概括力、综合力、理解力、抽象力等是常见的思维能力,属于智慧的核心范畴,是智慧活动的枢纽。人的智慧、聪明判别标准,可参考思维能力的强弱。依托于小
通过问卷调查法、文献资料法、数理统计法等方法和对数据的汇总、整理和分析,对山东商业职业技术学院跳远运动员跳远训练时运动损伤的部位及损伤原因方面进行了研究。研究结
皮肤癣菌病是常见的表皮真菌感染性疾病,直接镜检阳性可对相应真菌病的诊断提供可靠依据。作为快速诊断真菌感染的重要手段,直接镜检在临床上一直倍受重视。直接镜检对花斑糠疹
在机械加工过程中,刀具的磨损失效是造成数控机床故障的主要因素,如果不能及时、准确的实现故障监测,将会降低加工效率,缩短刀具寿命,增加加工成本。因此,实现数控机床刀具实