【摘 要】
:
信息与数据的膨胀导致了描述数据的属性急剧增多,而数据量也呈爆炸式增长。海量的数据不仅使传统的数据挖掘算法建模时间过长,而且冗余的属性也可能导致学习的算法变得更复杂,进
论文部分内容阅读
信息与数据的膨胀导致了描述数据的属性急剧增多,而数据量也呈爆炸式增长。海量的数据不仅使传统的数据挖掘算法建模时间过长,而且冗余的属性也可能导致学习的算法变得更复杂,进而很有可能导致模型无法准确捕获隐藏于数据中的规律。在这种背景下,粗糙集知识约简与贝叶斯网络的结合为处理膨胀的信息与数据提供了一个新的思路。本文给出了基于GINI指数的粗糙集知识约简算法,构建出基于GINI指数的粗糙集属性约简的贝叶斯网络模型,减少贝叶斯网络学习的复杂性,提高了分类的准确性。同时,本文将此模型应用于通信行业的客户流失预测中,实验结果表明,本文给出的GIBARKNC-TAN模型在客户流失应用中有较好表现,具有一定的实用价值。本文研究成果主要如下:(1)通过对国内学者提出的基于信息熵的约简算法的学习,给出2个基于GINI指数的知识约简算法——GIBARKCC算法与GIBARKNC算法,并给出算法的理论基础证明,最后通过2个实例以及仿真实验验证了算法的有效性;(2)给出基于GIBARKCC的树增广朴素贝叶斯分类模型以及基于GIBARKNC的树增广朴素贝叶斯分类模型,实验结果表明,GIBARKCC-TAN与GIBARKNC-TAN在实验数据的测试精度上比TAN高;(3)将GIBARKNC-TAN模型应用到通信行业的客户流失的预测中,并给出实证结果,最后对流失概率临界值做出讨论,并最终得到较好的预测结果。基于GINI指数的粗糙集约简的贝叶斯网络模型有效简化了构建单纯贝叶斯网络分类器的计算复杂度,且提高了分类精度,是一种切实可行的数据挖掘方法。
其他文献
电气设备安装在海洋钻井平台建造过程中起着关键性作用,也是是整个平台的核心之一。考虑到该平台作业环境的特殊性,介绍了ZY-1 3000HP模块钻井平台设备环境,对危险区域内电气
为了保证检测结果的准确性,既要满足检测方法、人员素质和环境条件的要求外,又要保证仪器设备的有效性和可靠性。期间核查是确定计量标准、标准物质或其他测量仪器是否保持其
塑料软包装材料的热封,在软包装的加工中是一道关键的工序,热封质量的好坏直接关系到对被包装物的保护效果。针对塑料软包装制袋热封过程中一些影响因素进行分析研究,得出一
根据鄂西南山区的自然环境条件,从苗木培育、栽植、栽后管理、采收和加工、包装贮藏与运输等方面,制定了一套较系统的日本柳杉-马桑-黄连混交栽连模式技术规范。该规范适用于
目的 分析重症颅脑损伤患者发生肺部感染的原因及其护理对策.方法 本研究对2013年收治的85例重症颅脑损伤患者的临床资料进行回顾性分析,重点分析其中46例并发肺部感染者的原
糖与生物体密切相关,在糖的结构中,碳全部以单键相连,碳骨架主要连有羟基和羰基,故无紫外-可见吸收和荧光发射,无法直接利用光谱法对其进行研究。硼酸基团与二羟基化合物能可
冶金设备检修过程中存在大量的危险源,对这些危险源进行辨识、风险评价进而制定出预防措施是避免出现人身伤亡、设备损坏事故的有效手段。
<正>《中国中医药报》2019年5月22日讯:2019年5月20日,黑龙江省中医药发展大会在哈尔滨召开,黑龙江省委书记、省人大常委会主任张庆伟出席会议并讲话。他强调,要深入落实习近
主流媒体是一个综合性的概念,是伴随不同阶段媒体的特点变化演变而来,主流媒体左右着社会的发展,其经济实力也不容小觑。近年来,互联网媒体的出现,使主流媒体的影响力在下降,
喷油螺杆空气压缩机近年作为主流的空气压缩机产品,发展迅速,能效提升明显。就促进喷油螺杆空气压缩机能效提升的一些主要节能技术应用进行分析和介绍。