基于统计视角的数据挖掘研究

被引量 : 31次 | 上传用户：xkd19890528

【摘要】

：

数据挖掘是一个年轻、活跃的研究领域，不同专业背景的研究者侧重于不同方面对数据挖掘展开了研究。从目前国内外的研究现状看，从事数据挖掘研究的主要是计算机领域的学者和专家

【作者】

：

徐雪琪

【发表日期】

：

2007年01期

【关键词】

：

统计学数据挖掘理论体系质量 LavaMiner

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是一个年轻、活跃的研究领域，不同专业背景的研究者侧重于不同方面对数据挖掘展开了研究。从目前国内外的研究现状看，从事数据挖掘研究的主要是计算机领域的学者和专家，统计界的学者和专家对数据挖掘的研究相对较少。而随着数据存储技术的不断发展，可用于数据分析的数据量越来越大，对传统的统计分析技术提出了极大的挑战。笔者认为数据挖掘的出现，正是统计学适应这一变化的新的发展方向，数据挖掘并不是为了替代传统的统计分析技术，而是统计分析方法的延伸和扩展。本文从统计学视角研究数据挖掘，以期从统计学角度对数据挖掘理论的研究有所突破和创新，同时对统计学理论在数据挖掘方向的发展做出探索。全文除了绪论，共分为七章。第一章为：基于统计视角的数据挖掘理论体系研究。通过对数据挖掘与统计学理论基础、方法等方面的比较，清晰地提出了基于统计视角的数据挖掘体系，改变了目前研究中人们对统计学与数据挖掘之间理解的模糊认识。第二章为：数据挖掘统计方法综述。首先对数据挖掘数据源、属性类型和功能三个基本问题作了界定，然后对实现其中的关联、聚类、分类和回归四项功能的统计方法进行综述，并对其中一些统计方法从数据挖掘应用角度作了一些完善和改进。第三章为：数据挖掘统计方法进一步研究。主要进行了特征描述统计方法研究和聚类挖掘距离函数和相似系数研究。在特征描述统计方法研究中，提出了在本文设计的可视化数据挖掘系统LavaMiner中将把特征描述作为一个独立的挖掘功能模块来实现的思路，提出了特征描述过程模型，进而根据建立的过程模型系统地研究了各个步骤可采用的统计方法。在聚类挖掘距离函数和相似系数研究中，系统地研究了各类属性的距离函数和相似系数，并分析了各个距离函数和相似系数的优缺点或适用性。第四章为：数据挖掘质量问题研究。从数据挖掘整个过程考虑把数据挖掘质量问题分为以下三类：源数据的质量问题、数据集成时的质量问题和数据分析时的质量问题，并针对不同问题从统计学的角度分别提出了相应有效的解决方法。第五章为：可视化数据挖掘原型实现。首先从数据挖掘原型的应用场景、使用对象、过程模型和模型表示四个方面研究了数据挖掘原型设计基础，然后设计并部分实现了可视化数据挖掘原型系统LavaMiner，这是本文的另一项重要研究内容。该系统具有灵活的操作过程、便捷的扩展方式和全面的接口封装三大特点。第六章为：数据挖掘在实际数据库上的应用示例。完成了数据挖掘在浙江省联通炫铃用户实际数据库中的应用示例，首先介绍了实验数据库，然后分不同时间段来实现最有价值客户的挖掘，最后作了铃音关联挖掘。第七章为：全文总结及研究展望。主要对全文工作进行总结，并对下一步的研究作出展望。

其他文献

全国石油天然气标准化技术委员会油气田节能节水分技术委员会暨石油工业节能节水专业标准化技术委员会2018年年会在东营召开

<正>本刊讯2018年10月11日,全国石油天然气标准化技术委员会油气田节能节水分技术委员会暨石油工业节能节水专业标准化技术委员会(以下简称节能专标委) 2018年年会在山东省东

期刊

石油天然气标准化技术委员会油气田节能工业节能

吸烟对血清甲胎蛋白含量的影响

目的调查主动吸烟对人体血清甲胎蛋白（AFP）浓度的影响.方法收集1097名健康人群的血清AFP数据,通过问卷调查获得相应的吸烟信息,以非参数统计方法,分别在总体上或同一性别内,

期刊

甲胎蛋白吸烟指数非参数统计

张謇的文化观与企业管理思想

主要论述近代著名民营企业家张謇的文化观与企业管理的关系.指出救亡图存的社会现实是张謇近代文化观形成的根源所在,而它又在很大程度上影响着他的企业管理思想.其中的经验

期刊

张謇文化观企业管理

包容性创新:研究综述及政策建议

包容性创新是企业面向低收入市场的专门创新形态,强调在获得经济回报的同时也能以缓解甚至消除贫困的方式创造出社会价值,促进包容性增长的实现。由于低收入市场与中高端市场

期刊

包容性创新金字塔底层市场缓解贫困包容性增长

环糊精/尼群地平包合物及其片剂的制备与评价

高血压是一类严重危害人类身体健康的疾病,并与其它心血管疾病有很大关系。如何高效、低价地降低高血压成为制药学者孜孜以求的目标。尼群地平药物在全球范围内广泛应用,是治

学位

尼群地平尼群地平-β-CD包合物片剂溶出度

中职生英语学习自我效能感及其培养策略

中等职业教育是国家职业教育的重要组成部分,英语是中职学生必备的基本技能之一。但中职生英语学习兴趣不高,自我效能感低下。本文提出通过培养中职生英语自我效能感来促进中

期刊

自我效能感中职生英语学习培养策略

高校英语专业人才培养模式的改革与研究

随着社会主义市场经济的不断发展,改革开放的不断深入,我国高校英语专业人才的培养模式不断面临着新问题和新挑战。高校英语专业传统的以培养语言技能为主要目标的课程设置及

期刊

高校英语专业人才培养模式改革与研究

论我国商业银行金融风险预警系统的构建

金融是影响一国经济稳定与安全的一个至关重要的因素，而银行又是金融中重要的一环。20世纪90年代的一系列金融危机，特别是1997年的亚洲金融危机，对全球经济的影响与破坏，再次引起

学位

商业银行金融风险预警系统指标体系BP神经网络

贸易自由化背景下我国服务贸易竞争力分析

二十世纪下半叶，随着科技进步，产业结构调整和全球经济稳步增长，国际服务贸易呈现出蓬勃发展趋势，在全球贸易总额中的比重不断上升。进入九十年代，服务贸易总协定及其后续谈判给新

学位

服务贸易竞争力比较优势竞争优势贸易自由化

业主自治研究

业主是物业的所有权人，在物业管理中居于核心地位。物业管理首先是业主自治管理。因此，建立、发展完善、完整的业主自治法律制度，即是私法自治的体现，又是维护业主共同利益的需要

学位

业主自治建筑物区分所有权业主公约业主自治机构

基于统计视角的数据挖掘研究

与本文相关的学术论文