一种面向海量数据综合评价的树状数据结构的设计与研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:X446873887
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当前计算机技术、网络、多媒体技术、通讯等技术的飞速发展,各类日常生活中充斥的大量数字资源遍布的专门业务系统,那么在如今数字化日益普及的今天,数据挖掘显得尤为重要,要利用计算机在这些大量的数据中进行有针对性的挖掘。譬如政府管理部门、大型企事业单位很多时候不需要也不可能去查阅全部的数据,而是需要从宏观的层面掌握这些数据所反映的事实,就要使用相应的数据挖掘方法,在现今众多的挖掘法中,其中有一类宏观的数据挖掘采用统计学中的综合评价方法。称面向海量数据,使用综合评价方法,利用计算机进行数据挖掘的系统为海量数据的综合评价计算系统。数据挖掘,指的是从大量原始数据中,这些数据可能不完整的、模糊的、随机的,提取其中有潜在价值的、能被人们利用和理解的信息和知识的过程。综合评价是指针对多属性体系结构描述的对象系统做出全局性、整体性的评价。综合评价又可分为综合评价方法及评价指标体系两类问题。其中前者在管理科学中已经有了大量的研究及成果;后者则与具体应用关联比较大。目前,针对海量数据,特别是实时到达的流数据系统的指标体系计算系统尚没有成熟的模型。指标体系计算系统应该包括建模、挖掘及指标综合三部分。在海量数据的综合评价中,用直观量化的数值指标来反映事物的属性。当分析某一事物时,实际上是从某一视角的不同方面分开来认识事物的,所以一个属性的指标值,可以用若干个子指标值来更详细地描述。对指标值多次细分后,指标体系就形成了一个树状的体系结构,本文提出的树状概要数据结构就是针对这种树状指标体系而设计的。在数据实时到达、规模无法预知的背景下,流数据库技术于20世纪末应运而生,在金融应用、网络监视、通信数据管理、Web应用、传感器网络数据处理等领域被广泛应用。但是,现有的流数据技术还无法方便地应用在指标体系计算这一特定领域。虽然“基于数据仓库的指标体系研究”提出了一种统一的方式来描述指标结构,将指标存放在数据仓库中再进一步挖掘,但没有考虑相关数据库表、计算环境的自动构建及可配置性,没有考虑直接从流数据中统计最底层指标,没有考虑指标综合的计算模型。本文借鉴流数据技术和OLAP多维数据分析的思想,基于提出的树状概要数据结构,实现了一个包括建模工具、指标综合计算的软件系统,能广泛应用于各种海量数据的复杂指标体系计算,大大简化指标体系计算平台的构建。
其他文献
随着互联网特别是电子商务规模的不断发展,系统中的用户和项目的数据量都在迅速增长。推荐系统可以为用户提供个性化的推荐,因此得到了广泛的应用。协同过滤凭借其简单合理的
随着社会与科学技术的快速发展,人们需求的数据量正呈现爆炸性的增长,对海量数据的存储提出了更高的要求。在海量存储设备的层次存储体系中,光盘库作为海量存储设备中的二级
社会化媒体在网络信息异常充斥的时代对信息流动和交互起到了非常大的推动作用,基于社会网络构架的机制是社会化媒体之所以能够进行广泛而快速的信息流动和传播的机制和源泉,
近几年来,人脸检测已经成为计算机模式识别中比较热门的研究课题,公安犯罪管理,身份认证,视频通话等等,在各个领域都有着很重要的应用,国内外的相关研究工作也越来越多。人脸
面对数据呈现爆炸式增长且大多数是小文件的现状,传统存储技术已经不能满足大数据的存储需求。分布式文件系统TFS(Taobao File System,淘宝文件系统)的出现,在一定程度上解决
随着无线通信技术的发展,人们已不满足无线局域网络(WLAN,Wireless Local AreaNetwork)仅提供对数据业务的支持,更希望WLAN能提供对语音等实时业务的支持。VoIP(Voice over Inte
随着计算机和网络技术的迅速发展,数字多媒体信息资源在人们工作和生活中的应用日益广泛。计算机强大的信息处理能力为多媒体信息的存取提供极大便利的同时,信息的版权保护等
随着Internet的发展,网络结构从传统的集中式、静态的形态逐渐转变为分布式的、开放式的动态结构,传统的安全机制已经不能满足现今网络发展的新需求。这给分布系统的可信计算
云计算是近几年刚形成的一种新的计算模式,是一种全新的信息处理技术。在云计算环境中,还有许多问题有待进一步研究,如云计算的安全问题,云计算环境中的动态模糊数据的处理问
软件定义联网SDN具有易管理和可编程的优点,可以集中管理网络,但是集中的单SDN控制器存在扩展性的问题。业界提出了多SDN控制器架构,但是大部分的架构中SDN控制器和SDN交换机