数据挖掘分类算法研究

被引量 : 0次 | 上传用户:jonasgu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的数据分析工具只能利用其中的很少一部分。近年来不断完善发展的数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而分类正是其中的极其重要的技术方法。准确率、速度、强壮性、可伸缩性、可解释性是评估分类方法的五条标准,其中准确率又是重中之重。本文在这几方面研究、分析了国内外比较流行的若干种分类方法:决策树分类、贝叶斯分类、神经网络分类、支持向量机分类等等。在这些方法中,决策树是采用最广泛的模型之一。本文重点以决策树为研究对象,研究涉及决策树建立过程中的各个主要环节,对决策树现在及未来发展中遇到的主要问题做了比较深入的研究,提出了一些切实有效的新方法改善决策树的性能,为决策树的进一步应用做出了自己的贡献。本文所涉及的决策树与其它数据挖掘方法交叉的共同环节,如属性选择、降维、连续属性离散化等不仅可以用来改善决策树的性能,也可用于改善其它数据挖掘方法,对于数据挖掘技术的发展具有积极的意义。本文主要研究工作包括以下几个方面:(1)引入了一种新的降维方法;(2)提出了加权二分查找算法进行连续属性离散化;(3)改进了传统的基于信息熵的属性选择标准;(4)基于以上三方面工作,对传统决策树进行优化整合,给出了改进算法的流程,并通过实验数据与C4.5算法进行比较,证明了该算法的优势。
其他文献
本文围绕着违约责任的过错责任原则,进行了一系列的论述。笔者认为,过错责任原则毫无争议的存在于我国的合同法中,我国采用的是严格责任原则与过错责任原则并存的二元制结构
当我们的法律面对现代化的冲击时,我不得不开始思考中国的法律该何去何从?对于中国的法律传统,是该弃之还是继承?面对外来的法律理念,该移植还是摒弃?这是我们作为一个法学人
企业的可持续发展问题是国家、社会可持续发展的基础。当今企业所面临的,不仅是激烈的市场竞争,而且是消费者、社会公众不断上升的权利意识,还有社会、政府、媒体对于环境保
2001年至2004年,我国陆续出台了货币资金,采购与付款,销售和收款,工程项目,担保及对外投资的内部会计规范,以及存货,固定资产,成本费用,筹资,预算内部会计规范的征求意风稿,
宋代纪年墓葬发现了大量的景德镇窑系青白瓷器,研究纪年青白瓷器对于这一时期在窑址和其它墓葬、遗址、窖藏等单位发现的没有纪年的青白瓷具有重要的断代参考意义。本文是以
本文以“地域文化视野中的俞源民居壁画”为题,将俞源民居壁画置于社会历史发展的宏观背景以及地域文化的微观情境之中进行考察。所采取的研究思路和方法,可以概括为四个方面:地
美声唱法中的呼吸、声区、共鸣、语言四大优势,本文不是为了突出其科学性或重要性,而是强化其在普遍意义上所体现出来的实用价值,并从美学的思考高度来看待美声唱法中花腔声
东野圭吾是日本当今文坛较有影响力的推理作家,其作品深受读者喜爱。尤其是作品塑造的女性形象个性鲜明。本文通过对《白夜行》的详细解读,深入分析作品中的女性形象,探讨东
在十九大整体报道中,中央电视台强化重大时政报道协调机制和重大主题宣传一体化统筹谋划机制,坚持贯通内容、频道和台网平台,一体化设计、多样化呈现,创新创优有了新突破,取
目的:探讨急性心肌梗死患者早期血清可溶性ST2(sST2)水平及其与心肌活性的关系。方法采用ELISA法检测30例发病12 h以内的非ST段抬高型心肌梗死(NSTEMI)患者血清sST2水平,于发病后第