【摘 要】
:
基于密度的聚类算法是到目前已提出的多种聚类算法中的一种非常有效的方法,这类算法可以检测数据空间中任意形状的簇,然而目前已有的一些基于密度的算法,如DBSCAN,DENCLUE,因为算法的全局参数问题而不适合处理不同密度的簇;SNN算法则由于需要从k最近邻相似矩阵中重构出共享最近邻图而在效率上有所欠缺.为了更有效率地检测数据集中的簇,提出了一种基于密度流模型的算法DEFAT.算法假设数据集中的每个对
【机 构】
:
School of Computer Science, Fudan University, Shanghai 201203
论文部分内容阅读
基于密度的聚类算法是到目前已提出的多种聚类算法中的一种非常有效的方法,这类算法可以检测数据空间中任意形状的簇,然而目前已有的一些基于密度的算法,如DBSCAN,DENCLUE,因为算法的全局参数问题而不适合处理不同密度的簇;SNN算法则由于需要从k最近邻相似矩阵中重构出共享最近邻图而在效率上有所欠缺.为了更有效率地检测数据集中的簇,提出了一种基于密度流模型的算法DEFAT.算法假设数据集中的每个对象都有一定的密度流,对象间通过传送密度流以共享密度信息,从而达到分离密集区域和稀疏区域的目的,DEFAT能够很好地检测不同形状、不同密度、不同大小以及有重叠的簇.在人工数据集和真实数据集上的实验表明,DEFAT无论在效果上还是在效率上,都优于现有经典的基于密度的算法.
其他文献
由于人工输入的商品容易存在信息错误、信息缺失以及主观上描述的差异,无法使电子商务数据满足传统实体识别算法的要求。本文设计并实现了一个基于电子商务的实体分类系统,提出了针对电子商务数据的数据清洗、词性标注、实体识别等算法,并集成了用户行为反馈技术以不断优化实体分类结果。系统采用真实商品数据做实验,验证了系统的有效性。
含谓词的XPath查询为小枝查询(twig query),它是XQuery最基本的查询模式。小枝查询算法有两大类:小枝分解和整体小枝连接,其中TwigStack系列算法处理小枝查询的效率是最优的,但其缺点在于不支持Twig Query中含“OR”以及通配符“*”的查询;在大型商业数据库管理系统中,TurboXPath是DB2用于处理小枝查询的基本算法,它对XPath的支持较全面,但由于TurboX
随着Web 2.0相关技术的发展,传统爬虫无法适于动态网页中用户评论的获取.主要工作包括:1)分析了动态网页用户评论的挑战;2)设计了一种新的用户评论获取方法ReviewCrawler,ReviewCrawler根据网页的DOM树,利用对比学习思想挖掘包含用户评论的节点,并在获取评论中学习新特征词;3)利用真实商品评论验证了ReviewCrawler准确性、有效性,实验表明ReviewCrawle
在一个字符串集合中,通过一些字符串的相似性函数寻找与查询字符串相似的字符串集合被称为字符串的近似查找。这种查找常应用于数据库、信息检索等各个领域。但是在某些特定的情况下,需要考虑字符串在查询中的重要性,即权值。针对这种同时考虑字符串相似性与权重的查询,在字符串集合中选择最佳的查询结果。首先提出了一个分为两步的Dtree算法处理这样的查询,并在两个步骤中设计了基于树状的索引结构来支持这样的查询。在真
实时OLAP对数据装载与更新、查询分析性能等方面具有更高的敏感性,面向DBMS的数据ETL和复杂SQL查询,提出了一种轻量级并行处理方法,即通过并行ETL过程将大规模、高维度事实表按照特定策略分布于多个数据节点,并基于多数据节点实现MDX多维查询分析的并行处理。采用Hadoop MapReduce编程模型,基于开源OLAP引擎Pentaho Mondrian实现,并通过实验及一个实时数据仓库商业项
随着移动计算的发展和移动设备的普及,移动数据管理已经应用在军事、交通等很多领域中。本文针对室内移动数据查询这一特殊的“限制性路径查询”开展研究工作。在室内空间的图模型的基础上不仅给出了该查询准确的形式化定义,还提出了CRS算法来解决室内环境下的限制性路径查询。最后的实验结果证明了该方法的有效性。
随着信息管理内容的不断扩展,出现了丰富多样的数据模型,而针对不同类型数据库的自然语言处理也是数据库管理中亟待解决的问题。因此提出了一种适用于信息网数据库系统的中文自然语言查询的模型设计和实现方法。根据信息网模型(INM)的半结构化特点以及查询语言的文法形式,在数据模型提取基础上建立扩充的语义知识库,通过对自然语言结构中的关系实体进行层次分析获得相对应的模糊关系树。然后选取树的最高层次实体作为INM
数据流事件预测在互联网、物联网和实时监控等领域有着重要的应用。现有数据流事件预测方法通常基于大小固定的滑动时窗和频繁事件情节挖掘,因而不能正确反映数据流事件发生模式的变化,缺乏对稀有事件规则的发现能力。针对这两个问题,首先提出一种适用于数据流事件情节挖掘的自适应时窗算法,根据事件发生模式变化动态调整时窗大小,进而提高事件规则挖掘的正确率;其次提出替代支持度的概念,在不影响频繁情节支持度的前提下提高
针对查询自动补全在传统的关键词检索系统得到了广泛的研究,但空间关键词检索并未得到足够的重视这一特点,本文提出一种基于日志项在线聚合的空间关键词检索的查询自动补全算法,可以根据用户当前的位置推荐出系统的查询日志中已经存在的、最相关的完整查询,通过新颖的空间-文本集成索引以及高效的混合过滤技术,新算法与基准算法相比,大大提高了效率。
社会网络中,不仅包括链接结构,还包括内容信息,内容信息表达了社会网络中个体相关的话题、兴趣等语义层面的信息。只考虑链接结构的社区挖掘方法无疑忽视了内容信息的价值。提出了一种结合链接结构和内容信息进行动态社区挖掘的方法,将链接结构和内容表达为矩阵形式,综合历史社区划分结果,使用非负矩阵分解方法进行社区划分,以使社区结果在反映网络的链接特征的同时,还反映话题、兴趣等语义层面的特征。在真实数据集上的实验