基于数据场的改进DBSCAN聚类算法

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:wwvicky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  DBSCAN算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。
其他文献
对信息网络数据集进行面向主题、多维、多层次的在线分析处理(OLAP)面临数据规模爆炸,问题复杂性剧增等技术难题,传统OLAP技术不再适用.提出了面向信息网络的在线图处理(OLGP)模型,OLGP包含节点集合、边集合、信息维集合,每个节点包含拓扑维集合;设计并实现了OLGP模型的核心操作(信息维上卷、拓扑维上卷、异步上卷)算法.对含有17431位作者的12499篇ACM论文的真实合作者网络数据集进行
提出了基于核诱导距离度量的鲁棒判别分析算法(KI-RDA).KI-RDA不仅自然地推广了线性判别分析(LDA),而且推广了最近提出的强有力的基于非参数最大熵的鲁棒判别分析(MaxEnt-RDA).通过采用鲁棒径向基核,KI-RDA不仅能有效处理含噪数据,而且也适合处理非高斯分布的非线性数据,其本质的鲁棒性归咎于KI-RDA通过核诱导的非欧距离代替LDA的欧氏距离来刻画类间散度和类内散度.借助这些散
群体决策问题是决策科学的核心问题之一。基于动态模糊理论,从动态角度研究群体决策问题,提出了一种动态模糊形式化关系决策方法。从个体偏好信息表达、个体偏好数据分析、个体偏好集结、方案选择和意见反馈五个阶段探讨了动态模糊群体决策模型,并通过实例验证了该模型的可行性和合理性。
针对已有方法在XML数据上基于SLCA语义处理查询时存在的冗余计算问题,提出了一种基于列存储的倒排索引CList,用于避免已有方法的倒排表中相同数据重复存储的问题。基于CList,提出了一种自顶向下的查询处理算法TDCOL来提升系统的处理性能。对于给定查询Q={k1,k2,…km}的每个公共祖先结点,TDCOL在保证仅处理一次的情况下即可得到所有满足条件的结果,因而将时间复杂度降为O(m×|LID
按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实体的数据库上的连接是支持多个值的相似性连接。由于多表连接操作的连接顺序对连接性能有着重要的影响,研究了实体数据库上多表连接顺序选择方法,采用基于实体的马尔可夫链蒙特卡洛(MCMC)方法估计出实体数据库的相似性连接操作的结果大小,并以连接结果大小和有无索引作为主要代价,提出了基于
在MapReduce与数据库的混合架构中,数据划分是影响查询性能的重要因素。对于开销最大的连接和聚集操作,采用混合MapReduce的方式实现,需要大规模数据的跨结点传输,网络传输和I/O开销巨大。为了减少传输的数据量,并提高连接操作的查询效率,提出了划分建议器模型。实现了MapReduce和数据库混合架构上的划分建议器,并计算划分代价,生成最优的数据划分方案,提高了系统效率。为了减少查询时间,依
为了解决空洞恢复路由算法在能耗、路由开销及可扩展性等方面的问题,提出了使用移动代理(MA)进行网间处理来避免“路由空洞”的算法(HAMA).HAMA将网络中的节点分为“空洞相关节点”或“空洞无关节点”,通过采用MA方式,对“空洞相关节点”进行路由处理,为其找到一个最优下一跳节点,最终成功建立到Sink节点的路由,从而达到避免“路由空洞”的目的.HAMA使节点提前意识到“路由空洞”的存在,尽可能绕开
为了使列存储OLAP操作中I/O和CPU开销较大的扫描、连接、聚集操作实现有效的共享和复用,提出了一个多查询优化技术。根据列存储以及OLAP操作的特点,提出了一系列转换规则,为OLAP查询请求产生的一组相关查询语句生成一个单一全局查询计划。为了达到共享复用的目的,在全局计划中引入新的过滤结点、分组结点、合并结点和聚集结点。同时,借用MuGA算法,通过分组结点、合并结点、连接结点实现维表及事实表元组
针对闪存缓冲区置换算法的性能验证基本采用仿真模拟的现状,提出了一种基于PostgreSQL的有说服力的性能验证方法,重点讨论了在PostgreSQL上扩展闪存缓冲区置换算法的方法和实现技术,并以CFLRU和CCFLRU算法为例,给出了具体的扩展过程。然后以一块固态硬盘作为数据存储设备进行性能测试,测试结果证明了基于PostgreSQL的扩展方法在缓冲区置换算法性能验证上的有效性。
微博不同于传统的社会网络和电子商务网站,存在用户活跃程度低,微博数据稀疏和用户兴趣动态变化等特点,将传统推荐算法应用于微博推荐时,效果并不理想。提出了一种基于贝叶斯个性化排序的微博推荐算法,对用户进行个性化微博推荐。该基于贝叶斯个性化排序的微博推荐算法,以微博对的形式提取微博系统中的隐式信息,对这些微博对进行学习,从而得到用户对不同微博的兴趣值。根据每条微博发出的时间,估计每条微博对的可信度。发出