数据仓库中的自动导航和知识发现理论与方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:konami_13
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对数据仓库中多维数据的联机分析处理和数据挖掘一直是国内外的研究热点,它在企业决策支持中具有广泛的应用前景和巨大的应用价值。联机分析处理虽提供了多角度多粒度展现数据的功能,但它实质上是一种用户驱动的探查,当面对海量数据时,用户易迷失且易忽略重要信息,因此如何为用户提供有意义的自动导航成为研究者们面临的一个新挑战。此外,已有的关于数据挖掘的研究都局限在传统的知识类型,而随着企业业务的发展,新的需求不断涌现,并突破了传统知识类型的范畴,如何对已有的数据挖掘方法进行扩展或找到新的挖掘方法来满足知识发现的新需求也是研究者们迫切期望解决的一个新问题。 围绕上述问题,本文深入研究并提出了数据仓库中高效实用的自动导航和知识发现方法。主要研究内容和创新成果如下: 1.提出了多维数据分布特征的抽取方法,并在此基础上提出了异常数据切片的挖掘方法,以及异常分布驱动的数据立方体全局导航方法。 切片操作是联机分析处理的主要功能之一。由于人工的切片过程非常低效,且易忽略重要信息,本文提出了一种自动智能的异常切片挖掘方法。该方法基于奇异值分解技术来提取切片的数据分布特征,然后在提取出的奇异值特征之上,利用基于距离的孤立点检测方法发现异常的切片。此外,基于切片数据的分布特征,提出了异常分布驱动的数据立方体导航方法。与发现驱动的探查不同,它基于对数据分布特征的分析,为所有维和维成员设置奇异度导航符,作为探查数据立方体的脉络,使得用户可以借助奇异度的导航快速找到信息量大的数据部分,并且对噪声干扰不敏感,保证了导航路径的有效性。 2.提出了基于数据立方体计算的多维数据关键梯度挖掘方法,以及针对约束梯度查询结果的序列梯度导航方法。 本文提出了一种与梯度阈值无关的关键梯度分析方法。通过在立方体计算过程中添加补充路径,实现了深度优先方式的关键梯度挖掘方法。由于利用了计数排序、分割策略以及插入排序,使得算法非常高效实用。同时,由于返回的结果是最关键的梯度特征,使得用户不仅在最大程度上不会遗漏重要有价值的信息,也使得分析的结果更加简洁易懂。此外,本文提出了针对约束梯度查询结果的序列梯度导航策略。在用类BUC方法计算数据立方体的同时,找到满足约束条件的梯度特征,并将一致上升的梯度连接成路径,使得用户可以根据路径的引导,方便快捷地探查各种属性组合下的重要梯度特征。 3.提出了多维数据概述特征的或然组查询方法,并在此基础上提出了基于单调性分类的聚集查询结果导航方法。 针对小样本类对象的特征难以精确概述的问题,本文给出了概述查询策略——或然组查询,并且提出了使用基本或然单元和最汇总或然单元回答查询的简洁概述方法。挖掘最汇总或然单元的问题具有挑战性,因为或然单元散落在数据立方体格中,且不具备覆盖包含顺序上的单调性。本文提出了启发式动态排序方法,通过巧妙地裁剪无希望的递归遍历,实现了高效的最汇总或然组挖掘算法。此外,本文提出了基于单调性的聚集查询结果导航方法。根据聚集查询结果在数据立方体格结构上的单调性,将OLAP常用的聚集函数进行分类,并为每一类提出了导航入口方案,使得用户可以从入口集开始方便快捷的进行循序渐进的结果探查过程。 实验结果和性能分析表明,本文提出的数据仓库中的自动导航和知识发现方法是实用且高效的,与该研究领域的同类算法相比,具有明显的优势。这些研究成果在我们的原型系统中得到了使用和验证,取得了令人满意的结果。
其他文献
本文在JPEG2000标准的基础上,对图像压缩比,压缩速度做了一些尝试研究。全文分为两部分: 第一部分,位平面并行的编码算法。。通过初始化过程,给每一个位平面构造了各自的上下文
在动物的进化历程中,文昌鱼是介于无脊椎动物与脊椎动物之间的过渡类型。利用分子生物学手段,研究文昌鱼有关基因的结构、进化和表达,不仅可为我们从分子水平上解开脊椎动物起源
多天线发射及多天线接收(MIMO)技术和正交频分复用(OFDM)技术属于第四代移动通信系统(4G)的关键技术,MIMO中的核心技术是空时编码技术,本课题针对空时分组编码(STBC)技术以及
本文通过对荣华二采区10
期刊
NC(Network Computer),是网络计算机的简称,也称之为网络终端机,是一种完全依赖于现代网络的终端设备~[1]。近年来,我国在信息技术领域有很大的进步,已经成功开发了“方舟”
目前,随着无线网络通信技术的不断发展,用户对移动数据业务的需求越来越大。移动IP协议作为一种移动管理标准,使移动终端可以在不改变IP地址的情况下支持漫游,满足了移动业务的需
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
α-半乳糖苷酶(α-Galactosidase,EC3.2.1.22),也称蜜二糖酶,是一类能够催化水解末端含α-1,6-半乳糖苷键的酶类,包括线形和分支寡糖,多糖以及人工合成的底物,如蜜二糖、棉子糖、水
本文是在上述“科技部子项目”背景下,在分析总结现有研究成果的基础上,以科技部子项目需求为基础,针对十一种元数据标准的特点以及系统可扩展性和元数据互操作性等要求,兼顾图书
传统的基于MAP的语言模型自适应技术虽然在解决训练语料的数据稀疏问题上取得了很大的成功,然而该方法的前提是要求有一定量的主题相关自适应语料,然而在某些语音识别应用中,