数据特征化技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：hzbhwh

【摘要】

：

数据特征化在数据管理领域和数据挖掘领域具有重要的用途。数据特征化旨在保留数据特征的情况下减小原始数据的规模。根据不同的数据类型和应用背景,数据特征化技术主要分为：

【作者】

：

孙翀

【出处】

：

华中科技大学

【发表日期】

：

2013年期

【关键词】

：

数据特征化直方图小波概要表语义汇总图语义汇总

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据特征化在数据管理领域和数据挖掘领域具有重要的用途。数据特征化旨在保留数据特征的情况下减小原始数据的规模。根据不同的数据类型和应用背景,数据特征化技术主要分为：数值型数值数据特征化,关系型数据特征化和(半)结构化数据特征化三大类。数值型数据特征化主要被数据库(流)管理系统中的查询引擎用于选择度估算或者近似查询处理,其主要包括直方图技术和小波技术；关系型数据特征化主要应用于数据库归档和数据浏览领域(如在手持设备上浏览大型的数据表),其使用基于语义的表汇总技术；现实世界的大量对象被建模成图模型,实际应用中的图模型往往是巨大的(具有成千上万甚至上百万的节点和边),去理解被编码在这些(巨大的)图中的信息需要使用图汇总技术。这些数据的特征化问题具有相同的共性：其目标是缩减数据规模且尽可能的保留数据原有特征,数据的特征均由给定的函数来度量。如何使得特征化数据的度量函数取得最优值从而提高汇总数据的质量,如何提高数据特征化算法的时间和空间效率以及如何在特定应用背景下调整通用的数据特征化算法是数据特征化问题面临的主要挑战。L2范数误差度量是基于统计分布中任意数据点是等概率被访问的假设,然而,在实际应用中该假设往往不成立。例如：数据库中的数据通常会出现帕累托法则的现象：20%的数据具有80%的访问量。那么构造基于工作负荷的直方图能够使得查询优化模块获得更准确的选择度估算值。另一方面,最优直方图构造算法的时间开销通常为多项式级的。在时间敏感的数据库系统中(例如实时环境下)为了将算法的时间开销降至线性时间,可考虑牺牲直方图的估算质量来换取算法时间效率上的提高,这样的直方图称作近似直方图。现有的小波概要构造算法均只关注如何确定被保留小波系数却忽略如何有效地处理被抛弃(未被保留的)小波系数(只是简单将未被选择的小波系数当作0来处理)。经过分析与证明发现：合理地处理被抛弃的小波系数对改进近似数据集质量和提高估算精度起着同样重要的作用。针对L2范数误差度量和MinMax绝对值度量的小波概要的被抛弃小波系数缺省值计算方法需要被研究。现有的表语义汇总技术将表的语义汇总作为K匿名进行处理,这样的解决方法会导致语义汇总表的质量下降,且存在转换开销大、算法框架复杂和不易扩展到高维属性等缺点。通过将表语义汇总建模成多维层次空间聚类问题进行求解能有效克服上述缺点。将原始图中节点分配到多个分组并根据原始边来确立分组间关系,这样得到的图称作汇总图。汇总图的规模可以由用户设定,用户可以通过浏览小规模的汇总图来获得原始图的相关信息。然而,现有算法存在汇总图规模设定受限问题。为了解决该问题,可引入节点的属性值概念分层来增加图汇总过程中节点分组的灵活性：不仅可以合并同值的节点还可合并具有相似值的节点。除了关注汇总过程中边的信息损失外,节点的语义信息损失也需要被关注。改进的方法将图汇总问题建模成多目标规划问题,并通过分层序列法和基于分级的统一评价函数两种不同策略来解决该问题。图规模巨大时,普通的基于聚类的图语义汇总算法存在着算法时间开销大的问题。如何快速地对大规模图进行语义汇总是急需解决的问题。在多维层次空间中进行分辨率调节来获得原始图在低分辨下的视图是解决该问题的途径。采取何种分辨率的调节策略使得视图具有最丰富的语义需要被研究。统一分辨率调节和基于数据特征的策略分别被提出。基于分辨率调节的图语义汇总算法能有效的对大规模图进行语义汇总。

其他文献

当代电影的空间叙事艺术研究

空间叙事是电影艺术表现的基本维度之一,也是突显当代电影创作叙事功能的一种艺术手法。空间叙事不同于书写叙事,利用空间镜头和画面来展现电影独特的审美特征,增强电影的空

期刊

当代电影空间叙事艺术表现

校园环境认知度的影响因素浅析--以东北大学学生校园认知调研为例

笔者对东北大学的学生进行了有关校园认知的调研，以学生群体为单位，研究客观的校园环境对于群体认知的影响因素。最终得出：影响校园认知度的因素包括清晰的轴线关系、建筑平面的

期刊

环境认知认知地图校园环境environment cognition cognitive map campus e-nvironment

微纳米力学同步辐射实验及重建技术研究

微纳米实验力学检测技术是制约着该学科向纵深发展的关键因素,因此发展新型微纳米实验力学检测手段极具意义。由于X射线具有能量高、波长短、穿透能力强等诸多优点,所以X射线

学位

实验力学微纳尺度力学实验同步辐射CTGPU并行计算局部重建

协会教研:区域教研的有效模式

期刊

区域教研保靖县教育局有效模式

基于SVM—GEP岩质边坡可靠性分析

由于岩质边坡通常存在节理、裂隙等不连续面，边坡滑动模式的稳定性系数是一个隐函数，导致了在其相应的可靠度研究中建立显式的极限状态方程是不可能的。为了解决这一问题，本文提

期刊

岩质边坡支持向量机基因表达式编程(GEP)可靠度rock slope SVM GEP reliability

人力资源档案管理的探析

随着社会的发展和科技的进步，我国的相关人力资源制度在随着经济的前进、社会的变革而发展变化，若继续沿用原有的模式来进行管理已不能适应当今社会发展要求，因此探索和研究当前

期刊

人力资源档案管理管理模式

乌镇的互联网饭局

互联网界规格最高的盛会,一份嘉宾名单,信息量丰富。11月18日,于乌镇举行的第三届世界互联网大会闭幕。既然是一场大会,那必是高朋满座,还被冠上了＂世界＂的名义,又是有关＂互联网

期刊

互联网乌镇习近平国家主席信息量李克强规格世界

针刀为主治疗陈旧性骶髂关节错位28例

目的：探讨针刀治疗陈旧性骶髂关节后上错位的治疗及其优势。方法：1．针刀治疗；2．针刺推拿治疗，各观察病例28，32例。结果：针刀组治愈21例，好转7例；针刺推拿组治愈12例，好转18例两者经统计

期刊

骶髂关节后上错位针刀针刺推拿

数据特征化技术研究

与本文相关的学术论文