【摘 要】
:
随着数据库规模的日益扩大,数据库的模式也愈加复杂,再加上文档资料的缺乏,用户需要投入大量的时间来理解和操作数据库。现有的数据库概化方法只是对数据库中的模式进行概化,
论文部分内容阅读
随着数据库规模的日益扩大,数据库的模式也愈加复杂,再加上文档资料的缺乏,用户需要投入大量的时间来理解和操作数据库。现有的数据库概化方法只是对数据库中的模式进行概化,通过关系表中的主外键信息或者社团检测算法,制定相应的评价函数,挑选出数据库中相对重要的表,作为概化结果提供给用户。但是随着对数据库的深入研究,表中实例规模的突增,模式概化已经不能满足用户的需求。基于此,本文主要从两部分对数据库进行概化,第一部分是模式概化,通过改进现有的社团检测算法,在不需要事先确定社团个数的前提下,将联系紧密的表划分到同一个社团中,再为每个社团挑选出最重要的表,作为该类的标识。第二部分本文对数据库实例概化技术进行研究,在模式概化的基础上,为各个表挑选出重要的实例,并将概化结果分为原生实例和新生实例。原生实例主要基于文本挖掘技术和扇出值进行概化,利用文本挖掘技术提取特征项,并选取各表中权值较大的特征项作为部分概化结果;另外本文还引入扇出的概念,根据表在记录层上的连接关系,扇出值越大,说明该记录实例化连接边的能力就越强,该记录也就越重要,从而为用户挑选出重要的记录。新生实例的研究主要是基于文本短语相似度技术,通过对表中某一字段值进行聚类得到概化结果,本文还介绍了对数值型数据的概化方法,并且通过实验验证了文中方法的可行性,不仅可以通过模式概化为用户提取重要的模式,而且可以通过实例概化为用户挑选出特征实例,使得不熟悉数据库的用户能快速了解数据库的主题信息,便于日后检索和查询。
其他文献
本文研究了VPN的分类方法,系统分析了处于TCP/IP网络不同层次的VPN协议规范,详细分析了SSL协议的工作机制和消息格式,就SSL与IPSec、SET、S-HTTP、S/MIME等协议在安全、性能、应
随着计算机技术和无线网络技术的进一步发展,移动办公等移动计算环境下的应用需求目益强烈,同时,应用需要处理的数据量和复杂度也不断增加,这使得许多应用需要嵌入式的移动数据库
随着计算机技术,特别是Internet技术的迅猛发展,在企业内部,由于部门间相对独立,构建系统时缺乏统一的规划和标准,形成了现有的应用系统多是分散、异构、封闭的系统,相互之间
在软件测试过程中,测试用例的生成是软件测试的关键和难点。目前,测试用例的生成主要靠手工完成,而且要求软件测试人员具有一定的经验和较高的专业水平,导致测试效率低下,软件成本
随着信息技术的迅速发展及其在制造业中的广泛应用,企业信息化建设进入了一个蓬勃发展的时代,如何把工艺设计人员从繁重的重复劳动中解放出来;如何有效管理大量的工艺文件和
鉴于开放的异构Web生物信息源数据量庞大,Web 访问低效而易出错,检索接口不完善,难于查询和检索,Web页面结构化程度低等问题,本文研究了基于语义网格的生物信息集成技术,从信息的查
业务构件是企业核心单据的软件实现,对于这种大粒度的软构件,其开发过程存在着大量的重复劳动,且其庞大的代码影响着自身的快速重构。ICEMDA(Interoperable, Configurable an
作为一种近年来才出现的、新颖的聚类算法,双聚类算法侧重于对子空间内的相似模式进行聚类,这种算法在高维数据的聚类方面具有良好的应用前景。已经证明,双聚类问题是NP-Hard问
随着Web应用程序的广泛使用,传统的B/S模式已不能满足日趋复杂的应用需求。这时,RIA技术应运而生,它将桌面应用程序与Web应用程序的优点有机地结合起来,满足了网络应用程序不断提
随着计算机技术、网络技术和通信技术的发展,基于视频内容的应用已逐渐成为当前多媒体技术的研究重点和发展趋势。视频对象分割作为实现基于内容的存储、传输和检索等视频应