数据挖掘中抽样技术的应用研究

被引量 : 0次 | 上传用户:bynlxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计学领域,抽样技术的研究已经相当成熟,但在数据挖掘领域,抽样技术显然还没有得到它应有的地位。虽然有学者提出在超大型的数据集上应用并行化算法或分块处理来提高数据挖掘的效率可能比用抽样技术更有效,但在本文的实践过程中发现,对于中等数量级(几万到几十万数量级)的数据集,抽样技术有着其他技术不可比拟的优势——速度快,准确性高,易实现。毕竟,实际应用有别于科学研究,对数据分析者来说,如何快速,简便而准确地获得挖掘结果以辅助相关决策的制定才是最终目的,在挖掘实验室以外的地方布置复杂的运算分析环境是得不偿失的。为了进一步研究抽样技术在数据挖掘中应用的可行性,本文从理论论证和实证研究两个方面展开。理论方面:对数据库中知识发现的过程做出了全面而科学的定义;总结了现行的在数据挖掘领域中广泛应用的抽样技术;归纳了数据挖掘中最重要的三种挖掘方法,并对当前抽样技术与数据挖掘的结合情况做了系统的阐述;对抽样技术在数据挖掘中的应用提出了两种新的方法——改进的静态抽样方法和改进的动态抽样方法。实证方面:列举了基于抽样技术的数据挖掘方法在金融、保险、零售、制造等各个行业的应用情况,并针对理论部分提出的新方法用实际数据做了必要的检验,以比较所研究的抽样方法在改进前后性能的变化情况。本文主要创新工作如下:(1)提出且在实践中实现了改进的静态抽样算法,并提出了改进的动态抽样算法的思想。(2)将改进的抽样技术引入分类、关联、聚类三个挖掘任务中,写出了相应的算法,并在数据挖掘软件上加以实现,对结果进行了分析。(3)提出了一种新的关联规则挖掘的评估方法,并实现了该评估方法。
其他文献
历经数十年的发展,晋江已成为世界上最大的制鞋工业基地和旅游运动鞋生产基地之一,但在快速发展背后不可忽视的问题是产品附加值低、核心能力缺失及环境污染等问题,因此晋江
以12份新疆塔城地区哈萨克族传统奶酪为原料,采用ROGOSA和MRS两种培养基分离纯化,共筛选出38株菌种,其中球菌29株,杆菌9株。结合其酸化能力、自溶度、生理生化试验进行筛选,
根据1955 ̄1995年丹江口水库下游沿程各站水文泥沙等原型观测资料,运用函数变量关系的中心线法,对其水位流量关系历年变化进行数理统计分析。分析结果表明,丹江口水库建库前后沿程水位流量
目的探索在社区吸毒人群中应用同伴推动抽样法(respondent-driven sampling, RDS)的可行性;了解东莞市社区吸毒人群艾滋病病毒(Human Immunodeficiency Virus, HIV)、丙型肝炎
起重机械防碰撞是重要的安全防护措施,越来越受到重视。结合现场检验经验,从常见的防碰撞装置,检验要求,检验中的常见问题及其原因等几个方面对起重机防碰撞现状进行了探讨。
当前,在全世界范围内,中小企业发展已经成为各国促进经济增长的重要动力。但同时,中小企业融资难的问题也成为世界各国政府所面对的难题,即使是金融体系非常健全的发达国家也
本文详细描述了构建一个音乐资讯搜索引擎的基本原理,并最终完成了音乐资讯垂直搜索引擎设计和实现。首先,本文对搜索引擎的原理进行剖析。论文对三段式工作流的搜索引擎分步
随着我国经济的高速发展,大宗货物的物流需求日益旺盛。联合运输作为综合性的运输组织形式,通过综合各种运输方式的优势,能有效地降低运输成本。但仅依靠各种运输方式的联运
随着经济的快速发展,中国已成为全球最大的手机市场和最大的手机制造基地。随着市场演进与竞争的加剧,曾经领先的中国知名品牌手机(波导、科健)亏损严重,而中国非知名品牌手
随着国家大力发展可再生能源,致力于电源结构调整,将发展风电等新能源作为改善能源结构的重要手段和新的经济增长点。我国丰富的风力资源及国家鼓励风电发展的政策为风电事业