面向交互式数据探索的规则挖掘技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dingdang_2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析师常常通过数据探索理解数据内在规律和模式,验证猜想和理论。传统的数据探索常常通过试错的方式来对数据中的规则进行逐个验证,这在小的数据集上尚且可行,但随着大量的商业组织尝试互联网化,海量的用户数据需要被记录和分析,传统的手工试错方式已经无法满足现有的分析需求。工业界和学术界也提出了许多数据探索的方法和实践,但更多地侧重于一次性的离线数据探索,难以满足分析师灵活的交互式数据探索需求。  针对当前的问题,设计了一个通用的交互式数据探索框架,该框架改进了传统的离线数据探索模式,定义了交互式的探索操作,同时支持了多种探索算子的后端实现,提供了多样化的探索目标。使得分析师通过交互式的手段动态探索海量数据成为可能。本文在研究和实现方式上,遵从了自顶而下的设计原则,具体而言:  (1)在框架的整体设计上,给出了架构方案,详细介绍了相关模块的功能和职责。  (2)讨论了框架中算子的数据模型和算子定义,并与传统DBMS算子相融合,拓展了SQL语句。  (3)给出了探索算子中一种可解释性的规则挖掘算子的具体设计和实现。首先给出了规则挖掘算子的形式化描述,接着证明了该问题是一个NP-hard问题,然后针对这个问题给出了一个贪心的近似解,最后并对原有贪心算法进行了性能优化以满足交互式操作的需要。  (4)在真实的数据集上验证了我们的规则挖掘算子,分析了算子的计算性能和探索结果。
其他文献
数据挖掘技术经过多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的,以数据库技术、统计学、人工智
随着国内电信运营竞争格局的形成和中国加入WTO,电信运营商需要更快、更好地满足市场需求,进一步提高经营和管理效率,降低企业运营成本,以获取更大的企业效益,这对电信企业的运营
WebGIS是Web技术和GIS技术相结合的产物,它在地理信息系统平台基础上嵌入HTTP和TCP/IP协议,实现互联网环境下的GIS服务共享功能。WebGIS因为其本身表现方式的优雅、多样性、便
随着个人电脑的使用普及,越来越多的单位和家庭都拥有了不同数量的电脑设备和其他的产品。在日常的工作和生活中,大部分的个人电脑只是处理一般的文档操作和低强度的事务处理。
人脸识别技术就是利用计算机分析人脸图像,提取有效的特征信息来辨认身份或者判别待定状态的一门技术。它涉及模式识别、图像处理、计算机视觉等诸多学科的知识,是当前研究的热
多通道交互是人机交互领域的重要研究方向,综合利用多个通道的信息能够提供更加自然、高效的交互体验。当前的触觉技术发展和可穿戴界面的交互特征给多通道交互的研究和应用设
本文主要研究了对园林数据的存储组织、查询管理和统计分析。利用地理信息系统(GIS)技术、数据库技术设计开发出园林信息管理模型,实现对公园绿地、附属绿地、行道树、古树名
随着越来越多的成功软件系统成为了遗产系统(legacy system),软件演化的重要性和普及性越来越强。软件演化已成为软件生存周期中最重要的形态之一,进入了软件的各个领域,成为了
随着Internet的迅速发展,各种信息以指数级的速度增长,类型也越来越多。如何有效地解决信息过载和信息迷失带来的种种问题,如何满足各种用户不同的个性化需求等,是研究人员面临的
在生物信息领域,基于多种相互作用检测方法,产生了大规模蛋白质相互作用数据;随着下一代测序技术的快速发展,产生了大量的DNA序列数据;由于蛋白质定量精度的提高,现代质谱仪器产