基于Hash快速属性约简算法的车辆销售数据挖掘研究

被引量 : 0次 | 上传用户:gx7411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,计算机网络和信息技术的高速发展为人类社会带来了巨大的变革和深远的影响。数据也渐渐成为了人们广为关注的重要战略资源。数据挖掘技术也得到不断进步和完善。作为知识发现过程中的重要环节,数据挖掘的作用就是从海量的数据中抽取总结出用户感兴趣的知识。数据挖掘技术已经为人们带来了生活便利和巨大的经济效益。然而,现实生活中采集到的数据集合中常常含有噪声数据,并且可能存在不完备、不协调、不确定性的信息。如果在这种低品质的数据集上进行数据挖掘,根本无法得到我们期望的效率和结论。基于粗糙集的数据挖掘是目前应用较为广泛的一种数据挖掘技术。前人在粗糙集理论的完善中做出了巨大的贡献。Hash快速属性约简算法于2009年由刘勇等人提出,在对现实数据进行研究和分析的过程中,发现该算法所提出的正区域计算法在很大的程度上降低了原有一些的算法在计算正区域时的复杂度,同时也大大的降低了算法整体的时间复杂度。这种算法能够有效的去除不相关属性,并且能够输出具有完备性的约简。考虑到数据挖掘算法与实际生产的结合性,本论文基于车辆销售数据的特点对这种效率较高的Hash快速属性约简算法进行了改进,改进算法的时间复杂度与原算法同阶,但是属性的值域比较复杂且所选样本对于同一属性的取值分布不均匀时,改进算法在计算时间上优于原算法。由于生产中涉及到的数据大部分都比较复杂,所以改进算法与实际生产数据结合的更加紧密。本论文将改进算法用于车辆销售数据集的属性约简,并且得到相应的简式。本文进一步使用基于粗糙集的值约简算法,完成了对于决策表的值约简,并且产生了一系列的决策规则。文中对于数据的分析过程、算法的改进过程进行了具体的研究和阐述。而且生成了一些有用的决策规则,例如车主属性与所选择的动力形式。这些决策规则经过整理即可以在具体销售中发挥作用。改进算法也可以应用到网站的试试推荐中,改进算法是基于对不一致数据的属性约简抗干扰性强,可移植性强。
其他文献
在室内声信号采集时,若声源与麦克风距离较远,采集的信号常含有混响声,过大的混响声会严重影响音频信号的清晰度和可懂度。此时,切实有效的混响消除方法就变得极为必要。本文
通过对陕西杨凌、阎良、泾阳467个农户的调查,从农户金融需求的角度出发,分析了农村信贷约束、农户融资困境及其金融排斥的影响因素。结果表明性别、受教育程度、家庭成员的
本文结合市场营销学,通过实例剖析,探讨了旅游地规划和市场分析结合的途径和方法,指出就旅游地自身发展而言,其规划过程和市场营销过程是一致的。文中引入了旅游资源评价的三个市
《3-6岁儿童学习与发展指南》是国家关于学前教育的指导性文件,蕴涵着科学的儿童观,一方面引导人们摆正对儿童的看法,树立科学育儿的理念;一方面使得儿童成为"全面发展的人",
根据上海实施建筑工程项目三维规划审批的要求,结合规划设计方案三维建模具体实践,探讨主要技术方法和流程,阐述了模型构建、纹理编辑、光影烘培、模型转换及成果展示与发布
高速切削技术具有高效率、低能耗和高质量等特点,近年来得到了迅猛发展。而由于高速铣削尚没有相对完整的铣削参数数据库可供选择,使其优越性不能得到充分发挥,因此通过实验研究
风蚀危害是影响流动沙丘造林成效的关键因素。为此,我们在跟踪调查纱网沙障野外固沙造林良好成效的基础上,进行了纱网沙障输沙量风洞模拟实验研究。结果表明:设置带状纱网沙障
为了解新一轮土地利用总体规划实施情况,本文以湖北省竹溪县汇湾乡土地利用总体规划为例,运用特尔菲法、多目标线性加权求和法结合相关文件要求构建了土地利用总体规划评估指
作为准零维纳米材料,量子点(QDs)具有很多独特的光学性能,如:荧光寿命长、荧光量子产率高、吸收光谱宽、发射峰窄且连续可调和抗光漂白性能强等。这些优异的特点使得量子点在生物检测、照明、能源和催化等领域具有广阔的应用前景和发展潜力。上世纪九十年代,科研工作者首次将量子点从油相转移到水相,并将其制备成用于细胞成像的荧光探针。自此以后,量子点作为荧光标记材料在单分子示踪、细胞生物成像、定量检测特定蛋白和
随着近年来西安市经济的快速发展,城市化和工业化水平不断提高,能源消耗量和机动车保有量的日益增多,导致大量的污染物排放到空气中。作为历史悠久的世界文化名城,西安市空气污染