论文部分内容阅读
自大型计算机到客户端-服务器的转变后,云计算揭开了IT行业的又一新篇章,与云计算密不可分的大数据也同样引得了人们广泛的研究。在信息数据爆炸的今天,海量数据的存储与分析逐步得到了人们的关注,如何最大化地利用大数据这一“财富”更好地为企业或某一行业服务,是大数据时代研究的热点。以医疗行业为例,医学领域的发展也同样离不开数据挖掘技术的辅助,利用数据挖掘技术对海量数据包括大量病人以及病人症状等进行分析决策,在应用技术成熟的前提下不仅提高了医疗行业的信息化使用效率,同时对病症的判断提高了准确度。随着数据挖掘技术不断的发展,在很多方面都已取得了很好的突破,但是就域中变量的因果关系来说,仍是一大难点。而贝叶斯网络与其他算法不同的是,它在分类的过程中考虑属性之间存在的依赖关系,通过描述体现这种依赖关系,并借助这种关系更加精确的进行分类。其最大的优点是能够通过图形化的方式展示变量之间的关系,为此,构建良好的贝叶斯网络模型以及更好的表达变量之间的关系具有非常重要的意义。在贝叶斯分类器的研究进程中,通过对结构模型的研究和扩展,虽然在分类能力上有所差距,但是依据各不相同,最经典的包括朴素贝叶斯(NB)、树扩展贝叶斯(TAN)、均依赖估测贝叶斯分类器(AODE)模型等。其中NB为最为简单的受限制性贝叶斯分类器,研究者们相继以NB为基础,探索并扩展了更加合理且准确度更高、分类性能更好的贝叶斯分类器模型。NB与AODE模型的特点都是复杂度较低,但是AODE在分类性能上明显优于NB模型,在AODE分类器的基础上进行扩展至ANDE虽然具有更高的分类性能,但考虑到ANDE模型在提升分类性能的同时,计算复杂度成级数的增长,在当前的技术实现下很难应用到实际中,因而关注度不高。TAN分类器根据变量间的条件互信息进行链的扩展,实现树增广模型,其分类性能也同样优于NB。NB、TAN、AODE等都在小数据集上表现优异,但是在数据量很大时体现出其劣势,因此,在面对海量数据的时候,尽量避免复杂度过高以实现贝叶斯分类器在大数据集下表现出良好的分类性能。本文的研究目的是以经典且模型简单的贝叶斯分类器为基础,改善模型简单的分类器模型以实现大数据分析的分类性能,描绘出新的贝叶斯分类器模型。以NB扩展到AODE模型为基础,在所有属性节点中每一属性节点作为另一个父节点,并最终进行平均,这样能够更好的利用属性间的因果关系实现分类性能的提高,其缺点是未考虑到冗余属性的噪声影响,因而在一定程度上会对分类性能产生影响。以此为出发点,分析TAN模型的特点,按照NB扩展为AODE的思路,进行TAN模型的扩展,此方法虽然看似是模型的累加,实际上是将NB和AODE等此类模型扩展为二阶的树结构,进而能够提高准确度,按照此思路实现的分类器模型,对数据集进行训练和测试,检查其结果。在此基础上,去掉AODE模型的缺点,即进行属性加权,再次实现TAN模型的扩展,并最终进行数据的检验。即实现属性加权的二阶TAN模型均依赖估测分类器。这样不仅将朴素贝叶斯分类器提升至二阶,同时去除了AODE模型的缺点,创新的同时高效地提升了分类器的分类精度。经实验证明,基于属性加权的二阶TAN模型的均依赖估测分类器能够很好的使用于大数据集中,在大数据集下表现出更好的分类性能,具有很高的精确度。