基于统计的分类算法及其在潜在客户识别中的应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:deskleg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的成熟和数据应用的普及,以数值形式存在的数据正以指数速度迅速增长.人们不再满足于对这些数据进行简单的事务管理和信息检索,而期望从数据中获取知识来辅助决策.这种需求,使数据挖掘成为近年来计算机领域研究的热点之一.而经过十多年的研究,数据挖掘技术已较为成熟,因此近年来研究的重点转为挖掘技术的应用,商务作为数据挖掘的主要应用领域,对知识的需求尤为显著.面对巨大的市场压力,竞争状态主要表现为企业间对最有利客户的激烈争夺上.因此潜在客户识别的研究具有重要的现实意义.该文首先介绍了潜在客户识别和分类算法概念.在此基础上,分析了潜在客户识别中存在的问题.针对条件属性取值和特定客户类别间的关联,该文在深入研究基于数理统计的算法基础上,提出一种具有统计的确定性因子算法.该算法首先根据条件属性将论域数据划分成等价类,然后计算各等价类中特定类别数据元个数与该等价类数据元总数的比值,得到确定性因子,并将其正态标准化后,作为条件属性的相关度量.实验结果表明,该算法能有效地解决知识的不确定性问题.针对属性选择的问题,该文在分析现有属性选择算法的基础上,提出一种基于推理思想的两层选择算法.该算法首先采用条件属性和类标识属性间的相关度量来判断两者的相关程度,去除与类标识属性无关或负相关的条件属性,减小了后续的学习规模,从而减少了时间开销;在属性选择中引入反馈原理,提出基于改善的属性选择模型,有效的抑制了人为给定阈值所致的选择的属性子集不是最优解或较优解问题,算法在节省时间的同时提高了属性选择的准确率,从而提高了模型精度.实验结果验证了这一结论.该文还针对相关条件属性综合要素对分类的影响,提出了一种构造变量的算法.该方法通过加入自变量来表征相关条件属性的综合要素与数据特定类别的关联,即通过模型对相关条件属性的综合要素的反映,减小了模型误差,提高了模型精度.该文在原有统计算法的基础上,结合上述改进,最后实现了基于统计和粗糙集的潜在客户识别系统原型.
其他文献
Internet是一个由上亿台计算机互联而成的全球性计算机网络,自二十世纪八十年代以来,随着社会经济的发展,它一直呈指数增长.伴随而来的网络技术的多样性、网络规模庞大、增长
查询执行是数据库技术的一个关键组成部分,查询执行的速度直接影响数据库管理系统的性能和效率。关系数据库系统中执行查询的方法主要有4种:基于扫描的方法,基于排序的方法,
研究蛋白质的结构预测问题,是生命科学领域的前沿课题之一.它所要解决的是蛋白质一级结构中的氨基酸序列最终如何折叠成特定的三维空间结构.在研究过程中,为了计算的可行,人
针对构件软件的混杂性、源码不可用性以及版本不确定性等给软件测试带来的困难,该文通过对MIME文件格式及多种构件标准中元数据定义的研究,提出了一种通用的构件测试元数据表
随着信息化产业、社交网络的不断发展,社交网络的用户越来越多,微博作为社交网络中的重要信息交互平台,具有共享性、时效性和交互性等特点,迅速受到大量用户的青睐。如何在微
ERP为企业的信息化建设提供了全面集成的解决方案.中小型企业信息化建设越来越重要,采用先进的企业资源计划系统已势在必行.该文通过对ERP系统中进销存管理的研究,提出了库存
随着网络和多媒体技术的不断发展,IP网络已经从原来单一的数据网络发展成一个名副其实的综合业务网。目前,实时音频、视频等多媒体应用已经进入IP网络,但是还有许多问题没有得到
通用数据访问技术是Microsoft公司为实现统一访问关系型和非关系型数据源而提出的数据访问技术,由ADO和OLE DB两组接口组成。为了使DM数据库管理系统支持通用数据访问技术,本
项目管理技术是20世纪50年代后期发展起来的一种计划管理技术,其本质特征在于利用科学的运筹和管理来达到项目的既定目标,提高项目完成的质量,降低项目运行的风险和成本,加快项目
大坝建设方案选优是建坝决策过程中关键的一步。制定了几套完整的建坝方案,但若不能正确地进行选优,选择出来的方案就可能不是满意的,甚至选错,这些都会造成决策的失误,带来