一种基于单调递减阈值函数的高维数据集聚类算法

来源 :第二十二届中国数据库学术会议 | 被引量 : 0次 | 上传用户:killall2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘领域中的一项重要的研究课题,它既可以作为一个单独的工具以发现数据库中数据分布的一些深入的信息,也可以作为其他数据挖掘分析算法的一个预处理步骤.目前,高维数据集的高效聚类已成为聚类分析算法的巨大挑战.迄今为止,国内外的研究者已经提出了许多聚类算法,在本文中提出了一种基于最优分割区间和单调递减阈值函数的子空间聚类算法FIS.它在保证精度的同时能够有效改善聚类算法对于存在高维聚类的执行效率.从实验中可以看出,FIS算法是有效的.但同时也应该看到,FIS算法还是不能从根本上克服"维数灾难",这也是值得今后进一步深入研究的子空间聚类挖掘算法的一个关键技术.
其他文献
本文介绍了使用界标和增加/删除网页文档两种当前比较典型的更新策略,并对它们进行了分析比较,对使用界标和插人/删除文档这两种更新策略进行改进;用实验对改进策略进行了验证比较;在文章最后,给出相应的结论和应用前景.
本文根据全文数据库的特点,提出一种全文检索的组织方式,比较了全文检索方法与常规的数据库内搜索的不同之处,完成一个基于DotLucene的全文检索技术对知识库站内查询的实现,把模糊查询变成了多个查询条件精确查询的逻辑组合,查询功能强大,检索速度快,取得了良好的效果.
基于XML的Cache系统是XML数据管理领域一个重要的研究问题.本文在分析基于XML的Cache系统功能的基础上,简单介绍了一个实用的XMLCache系统--CACX;并对CACX系统中的数据组织以及数据更新策略进行研究;根据XML数据更新的特点,提出了基于关联规则的Cache数据组织方法,降低了数据更新的数据开销;同时讨论了CACX系统三种数据替换策略及其代价模型.理论分析表明,本文提出的第二
稀有类分类是当前数据挖掘的研究热点之一.所谓稀有类是指我们关注的目标类在数据集中所占比例非常小(通常远低于10%).许多实际问题,如网络入侵检测、欺诈检测、疾病诊断等都可看作稀有类识别问题.本文考察了如何使用Bagging技术来分类稀有类,提出了Bagging基于eEP的组合分类算法BeEPRC.通过改进的加大稀有类样本抽样比例方法及多分类器投票策略,BeEPRC对稀有类表现出了很好的分类性能.在
Web服务技术出现已经有四年多了,尽管这项技术非常有潜力但是被采用的比率依然不高.影响它发展的原因有许多,其中一个重要的方面就是Web服务质量(QualityofServices,简称QoS).在Web服务体系中,服务登记机制UDDI只基于Web服务的功能性(Functional)方面.类似于:用户需要获得响应时间小于2s,服务价格小于100RMB这样的Web服务,目前的UDDI无法处理,如何提高
实化视图是数据仓库(DataWarehouse,DW)中存储的主要信息实体,它将各分布式数据源的数据实体化.在一个典型的数据仓库系统中,数据源是由不同的信息提供者拥有,并且功能独立于其他数据源.一旦数据源产生更新,DW必须通过视图维护重新演算算法来确保视图有效地进行相应的维护,以保证两者之间数据的一致性.已有的算法如延迟视图维护方法,自维护方法,以及基于增量维护思想的渴求补偿算法、Strobe算法
本文针对现有的Oacle数据库管理系统的安全模型进行分析,参照国内已有的相关研究,按照Bl级标准针对数据库访问设计了一个基于用户认证,数据加密传输、强制访问控制及审计功能的安全加固器,并提出了进一步的完善方案.
QoS在面向服务的应用中有着非常重要的作用,本文研究了可扩展的动态服务聚合QoS模型以及基于Petri网的服务聚合流程基本控制模式和服务聚合流程QoS计算方法,是实现基于QoS的动态服务聚合的基础.
本文在第2部分首先介绍了目前技术转移平台研究现状,并指出传统推荐技术不能很好地适应技术转移平台特点.本文经过分析后提出Web服务可以有效的解决这一存在问题,在第3部分概述了Web服务技术,接着介绍了技术转移平台上基于Web服务的推荐系统的结构及推荐流程(第4部分).在文章的第5部分简要的介绍了该方法的实现情况.最后部分对全文进行了小结和展望.
本文主要是在次协调关系数据库的基础上引入了可信度的概念,并对代数运算做了新的定义,从而扩展了次协调数据库的功能,这在实际应用中有着重大的意义.但由于次协调数据库的概念直到近年来才被提出,还需要将传统数据库中的关系演算、查询优化、范式、完整性约束等概念引入到次协调数据库中来,以完善其整个系统.