数据归约的统计方法研究及应用

被引量 : 0次 | 上传用户:xiaofyk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据归约是数据挖掘过程的关键环节,因此对数据归约技术的研究具有重要的意义。当前已有的数据归约方法多偏重于有监督学习,而无监督情形下归约方法的研究还相对不够丰富。鉴于这种情况,本论文的重点内容是尝试对无监督数据归约的统计方法及其应用进行研究。在本论文第一章中,首先阐述了选题的研究背景和研究意义。之后,在概述相关背景知识和总结国内外数据归约研究方法现状的基础上,明确了本论文的研究内容及创新之处。数据归约两项重要的基础工作--缺失值填补和异常值探测是第二章探讨的内容。在本章,根据对统计学中常用的各种缺失值填补和异常值探测方法的分析,总结出了一些适合数据挖掘使用的方法。此外,通过将几种异常值探测方法应用在某地区移动通讯用户缴费数据库上,对手机用户的消费行为进行了实证分析。数据归约包括元组的归约和属性的归约。本文在第三章探讨了元组归约的两种主要方法--连续属性离散化和概念分层。在对当前的离散化方法和概念分层中面向属性归纳方法综述的基础上,提出了两种从独立性角度考虑的连续属性离散化方法,分别是基于可辨识矩阵的离散化方法和基于似然比假设检验的离散化方法。并通过在Iris样本集上对这两种方法进行模拟,验证了它们的有效性。属性重要性排序以及属性的提取和属性子集的选择是属性归约的两类方法。本文在第四章探讨了属性重要性的排序问题。数据挖掘中目前常见的排序问题是有监督属性的排序,本章首先对它们作了介绍和比较。然后在无监督属性重要性的排序方面,提出了单向有序列联资料的属性排序方法-改进秩和法和基于因子分析的无监督属性排序方法,这两种方法分别在一份调查问卷的列联资料和全国居民人均消费支出样本集的模拟中,取得了较为满意的结果。第五章探讨的是属性的提取和属性子集的选择问题。首先对目前在数据挖掘中用于属性线性提取的几种统计学和其他学科的方法作了介绍和评价。然后是本章的重点内容-属性子集的选择,在对属性子集选择的基本知识及目前已有的研究成果详细阐述和分析之后,提出了逐步向前的无监督属性选择方法,并通过实例验证了该方法的有效性。第六章对全文的主要工作进行了总结,并指出了有待进一步改进和完善的地方。本文的创新之处主要有以下四个方面:(1)提出了分别基于可辨识矩阵和基于似然比假设检验的两种连续属性离散化方法。(2)提出了单向有序列联资料属性排序的方法--改进秩和法。(3)提出了基于因子分析的无监督属性重要性的排序方法。(4)提出了逐步向前的无监督属性选择方法。
其他文献
目的:探讨肩关节松动术配合物理因子综合治疗肩周炎的作用。方法:120例肩周炎患者随机分为观察组和对照组各60例,均采用蜡疗、干扰电疗法治疗,观察组在蜡疗后加用肩关节松动
作为立法者在立法过程中的价值立场,价值态度,《治安管理处罚法》所体现出的首要价值取向是尊重和保障人权。这是由我国治安管理处罚的特点:一元化的处罚体制,完全行政处理程
混合流水线(Hybrid Flow Shop,简称HFS)调度问题是一类复杂的调度问题,由于调度涉及任务、资源、时间的三维性,建立HFS调度问题精确的数学模型是非常困难的。HFS调度问题属于
简要介绍了广西夏季繁育马铃薯脱毒原种的栽培技术,为今后在广西建立马铃薯脱毒种薯繁育基地奠定基础,对广西马铃薯产业的发展起到推动作用。
随着全球信息化程度的不断提高,企业对IT服务的要求也越来越高,企业不仅仅要求IT服务持续不间断的支持业务运营,而且要求IT服务能够为企业创造更多的机会,使得业务部门能够更
<正>从改革开放之初提出制定粮食法至今,时间已逾30年。2012年2月21日,国务院法制办终于公布了粮食法(征求意见稿),向社会公开征求建议。它的颁布引起社会各界的广泛关注,也
随着英语新课程改革的实施,机械地背诵、抄单词、做习题等老调常弹的作业布置严重地影响了学生学习英语的兴趣,本文从高中英语作业问题的提出、传统英语作业布置的局限性、新
本文从经济学的角度分析会计信息质量不高和供求不足原因,其理论基础为公共物品理论、产权理论、利益相关者理论。并依据路径依赖理论提出会计信息治理必须从会计信息产权合
面对中国大众文化自20世纪90年代以来的迅猛发展,部分中国知识分子忧心忡忡。法兰克福学派为他们提供了批判的武器。法兰克福学派在20世纪30-50年代期间创立的大众文化批判理
随着无线通讯技术的迅速发展,人们对无线通讯终端设备的需求趋向于微型化。同时,人们对无线通讯的带宽要求更高,因此需要更高的通讯频率。然而对于高频信号而言,分立器件间存