基于关联规则和特征码的快速去重方法

来源 :2007中国计算机大会 | 被引量 : 0次 | 上传用户:fuyunyang1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本挖掘预处理过程中,文本去重能够消除大量重复丈本,从而减少数据挖掘过程中数据的处理规模。针对短文本数据的海量性和简短性,本文提出了基于关联规则和特征码的快速去重方法。在对海量短文本进行去重过程中,该方法具有较高的压缩比,效率优于全匹配r去重和基于特征码去重。
其他文献
去重处理是数据挖掘预处理中非常重要的一个环节。当前主流的数据清洗工具中对于重复数据的去除都是基于关系数据库,不适用于在加载过程中进行去重操作。本文针对海量短文本的
越来越多的XML应用以XPath来查询XML文档中的数据,如何有效的处理XPath查询成为这些应用的关键。本文充分考虑XML和XPath数据模型的特点,设计并实现了一个高效查询引擎OnceXPat
会议
挖掘频繁元素是数据流研究领域的一个重要问题。由于数据流具有高速流动、规模无限等特点,因此在数据流上挖掘频繁元素很具挑战性,主要有:动态的维护概要数据结构;使用远小于数
会议
从股票数据分析的实际应用出发,分析了经典Apriori算法的不足,主要从主观有效角度,考虑股票分析用户对规则的使用率,深入研究推导证明有意义的定理,提出了新的规则定义,在新的规则
会议
当前逐渐出现的大规模(TB甚至PB级)的数据库系统中,其庞大的数据规模,往往造成查询性能低下。针对这一现状,介绍了一种面向海量数据的多维度数据划分的查询优化方法,该方法将存放
会议