基于数据场的改进DBSCAN聚类算法

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户：wwvicky

【摘要】

：

DBSCAN算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇，但聚类结果依赖于参数Eps和MinPts的选择，而且对于一些密度差别较大的数据集，可能得不到具有正确类簇个数的聚类结果，也可能将部分数据错分为噪声。为此，利用数据场能较好描述数据分布，反映数据关系的优势，提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念，在聚类过程中动态地确定每个类的Eps和平均势

【作者】

：

YANG Jing 杨静 GAO Jiawei 高嘉伟 LIANG Jiye 梁吉业 LIU Yanglei 刘杨磊

【机构】

：

Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Educa

【出处】

：

第29届中国数据库学术会议

【发表日期】

：

2012年10期

【关键词】

：

数据场聚类算法全局优化性能测试

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

在线图处理:面向信息网络的在线分析处理

对信息网络数据集进行面向主题、多维、多层次的在线分析处理(OLAP)面临数据规模爆炸,问题复杂性剧增等技术难题,传统OLAP技术不再适用.提出了面向信息网络的在线图处理(OLGP)模型,OLGP包含节点集合、边集合、信息维集合,每个节点包含拓扑维集合；设计并实现了OLGP模型的核心操作(信息维上卷、拓扑维上卷、异步上卷)算法.对含有17431位作者的12499篇ACM论文的真实合作者网络数据集进行

会议

信息网络数据立方在线分析处理合作关系上卷算法

核诱导距离度量的鲁棒判别分析

提出了基于核诱导距离度量的鲁棒判别分析算法(KI-RDA).KI-RDA不仅自然地推广了线性判别分析(LDA),而且推广了最近提出的强有力的基于非参数最大熵的鲁棒判别分析(MaxEnt-RDA).通过采用鲁棒径向基核,KI-RDA不仅能有效处理含噪数据,而且也适合处理非高斯分布的非线性数据,其本质的鲁棒性归咎于KI-RDA通过核诱导的非欧距离代替LDA的欧氏距离来刻画类间散度和类内散度.借助这些散

会议

人脸识别特征提取线性判别分析核诱导距离度量鲁棒控制

动态模糊形式化关系群体决策方法

群体决策问题是决策科学的核心问题之一。基于动态模糊理论，从动态角度研究群体决策问题，提出了一种动态模糊形式化关系决策方法。从个体偏好信息表达、个体偏好数据分析、个体偏好集结、方案选择和意见反馈五个阶段探讨了动态模糊群体决策模型，并通过实例验证了该模型的可行性和合理性。

会议

群体决策动态模糊理论偏好关系信息处理

TDCOL:列式存储的XML关键字查询处理策略

针对已有方法在XML数据上基于SLCA语义处理查询时存在的冗余计算问题,提出了一种基于列存储的倒排索引CList,用于避免已有方法的倒排表中相同数据重复存储的问题。基于CList,提出了一种自顶向下的查询处理算法TDCOL来提升系统的处理性能。对于给定查询Q={k1,k2,…km}的每个公共祖先结点,TDCOL在保证仅处理一次的情况下即可得到所有满足条件的结果,因而将时间复杂度降为O(m×|LID

会议

数据库系统列式存储可扩展标记语言关键字查询性能优化

实体数据库中多相似连接顺序选择策略

按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值，因此基于实体的数据库上的连接是支持多个值的相似性连接。由于多表连接操作的连接顺序对连接性能有着重要的影响，研究了实体数据库上多表连接顺序选择方法，采用基于实体的马尔可夫链蒙特卡洛(MCMC)方法估计出实体数据库的相似性连接操作的结果大小，并以连接结果大小和有无索引作为主要代价，提出了基于

会议

实体数据库相似性连接马尔可夫链蒙特卡洛法编辑距离优化算法

混合MapReduce环境下大数据划分的查询优化

在MapReduce与数据库的混合架构中，数据划分是影响查询性能的重要因素。对于开销最大的连接和聚集操作，采用混合MapReduce的方式实现，需要大规模数据的跨结点传输，网络传输和I/O开销巨大。为了减少传输的数据量，并提高连接操作的查询效率，提出了划分建议器模型。实现了MapReduce和数据库混合架构上的划分建议器，并计算划分代价，生成最优的数据划分方案，提高了系统效率。为了减少查询时间，依

会议

数据库技术系统架构查询性能划分建议器优化算法

Mobile-Agent的空洞避免路由算法

为了解决空洞恢复路由算法在能耗、路由开销及可扩展性等方面的问题,提出了使用移动代理(MA)进行网间处理来避免“路由空洞”的算法(HAMA).HAMA将网络中的节点分为“空洞相关节点”或“空洞无关节点”,通过采用MA方式,对“空洞相关节点”进行路由处理,为其找到一个最优下一跳节点,最终成功建立到Sink节点的路由,从而达到避免“路由空洞”的目的.HAMA使节点提前意识到“路由空洞”的存在,尽可能绕开

会议

无线传感器网络移动代理路由算法负载均衡

列存储中的OLAP多查询优化方法

为了使列存储OLAP操作中I/O和CPU开销较大的扫描、连接、聚集操作实现有效的共享和复用，提出了一个多查询优化技术。根据列存储以及OLAP操作的特点，提出了一系列转换规则，为OLAP查询请求产生的一组相关查询语句生成一个单一全局查询计划。为了达到共享复用的目的，在全局计划中引入新的过滤结点、分组结点、合并结点和聚集结点。同时，借用MuGA算法，通过分组结点、合并结点、连接结点实现维表及事实表元组

会议

数据库列存储系统联机分析处理多查询优化全局计划

PostgreSQL闪存缓冲区置换算法扩展与性能验证

针对闪存缓冲区置换算法的性能验证基本采用仿真模拟的现状，提出了一种基于PostgreSQL的有说服力的性能验证方法，重点讨论了在PostgreSQL上扩展闪存缓冲区置换算法的方法和实现技术，并以CFLRU和CCFLRU算法为例，给出了具体的扩展过程。然后以一块固态硬盘作为数据存储设备进行性能测试，测试结果证明了基于PostgreSQL的扩展方法在缓冲区置换算法性能验证上的有效性。

会议

闪存缓冲区置换算法数据结构性能测试

个性化微博推荐算法

微博不同于传统的社会网络和电子商务网站，存在用户活跃程度低，微博数据稀疏和用户兴趣动态变化等特点，将传统推荐算法应用于微博推荐时，效果并不理想。提出了一种基于贝叶斯个性化排序的微博推荐算法，对用户进行个性化微博推荐。该基于贝叶斯个性化排序的微博推荐算法，以微博对的形式提取微博系统中的隐式信息，对这些微博对进行学习，从而得到用户对不同微博的兴趣值。根据每条微博发出的时间，估计每条微博对的可信度。发出

会议

微博系统推荐算法信息提取数据处理

基于数据场的改进DBSCAN聚类算法

与本文相关的学术论文