基于K-means与ChiMerge算法的数据离散化比较研究

来源 :信息技术 | 被引量 : 0次 | 上传用户:sheishei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多机器学习算法要求变量为离散量,例如决策树、贝叶斯网络等。当出现变量为连续变量的情况时,需要对连续变量进行离散化处理。离散化直接影响了算法的处理效果,其对整个算法模型具有重大意义。文中提出了两种离散化方式,一种是改进的K-means(K均值聚类)离散化算法,其能确定最佳聚类数并在无监督的条件下进行离散化,一种是传统的有监督离散化算法ChiMerge,使用两种方法对数据集进行离散化处理,然后分别建立贝叶斯网络并且进行预测分析,比较二者的离散化结果。实验表明,相对于改进的K-means算法,ChiMerge
其他文献
高填方路堤+挡墙是库区高等级公路的一种常见路基结构形式,其稳定性受库水位涨落影响较大。以奉节至云阳高速公路某高路堤边坡为例,基于饱和-非饱和理论研究其在库水位涨落下
就业难是目前高校毕业生普遍面临的一大问题。而高校评定毕业生就业情况主要通过就业率统计进行。通过对毕业生就业率的统计,学校对办学、人才需求以及人才培养等作出评价和
用数学建模分析方法,构建软件项目开发组织模式的成本质量函数评价模型,并据此评价3种组织模式的效能,认为高端市场适用模式2,中端市场适用模式3,低端市场适用模式1,并结合实际案例
提出了用Petri网建立XML语义结构模型的设计方法,根据XML的DTD结构建立描述XML语义结构的Petri网模型,DTD结构中的元素声明和属性声明对应Petri网模型中的一个或一组变迁,声明中
“订单式”校企合作是近年来我国职业技术教育中产生的一种新型人才培养模式,从理论上来说它也是一种交易,高职院校和企业参与合作可以满足各自的利益,但任何交易本身也会产
河源市是东江流域客家人的聚居中心。河源市的生态环境以及历史文化积淀,如何探究和选择河源客家文化元素,并完美融入和运用到现代室内装饰中。
随着当今社会的飞速发展,人们的生活节奏逐渐加快, 竞争正朝着越来越激烈的趋势发展,人际关系变得越来越微 妙,越来越复杂。由于科学技术的飞速发展,知识的爆炸性 增长迫使人
练习是数学"教"与"学"的有效方法之一,是数学课堂的重要组成部分。精心设计并有效使用课堂练习,值得每一位数学教师重视。其中,数学课堂练习要讲究"匹配"是一个重要的方面。
Smart grid is an idea of upgradation of the traditional electric grid infrastructure. The efficiency of the existing electrical grid can be automated by integra
岩溶洞穴次生沉积物——石笋因其独有的高精度测年和高分辨率记录的优势已越来越成为过去全球变化研究中重要的支柱。进行洞穴碳酸盐沉积机理研究对于理解石笋沉积速率,结晶形