基于关联规则和特征码的快速去重方法

来源 :2007中国计算机大会 | 被引量 : 0次 | 上传用户：fuyunyang1

【摘要】

：

在文本挖掘预处理过程中，文本去重能够消除大量重复丈本，从而减少数据挖掘过程中数据的处理规模。针对短文本数据的海量性和简短性，本文提出了基于关联规则和特征码的快速去重方

【作者】

：

杨虎杨树强韩伟红金鑫

【机构】

：

国防科学技术大学计算机学院，湖南长沙，410073

【出处】

：

2007中国计算机大会

【发表日期】

：

2007年期

【关键词】

：

关联规则特征码文本挖掘文本数据挖掘过程海量方法处理过程处理规模重过程压缩比效率匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在文本挖掘预处理过程中，文本去重能够消除大量重复丈本，从而减少数据挖掘过程中数据的处理规模。针对短文本数据的海量性和简短性，本文提出了基于关联规则和特征码的快速去重方法。在对海量短文本进行去重过程中，该方法具有较高的压缩比，效率优于全匹配r去重和基于特征码去重。

其他文献

基于短文本数据库加载的高效去重方法的设计与实现

去重处理是数据挖掘预处理中非常重要的一个环节。当前主流的数据清洗工具中对于重复数据的去除都是基于关系数据库，不适用于在加载过程中进行去重操作。本文针对海量短文本的

会议

散列特征值分布式短文本去重算法

基于PN索引的高效XPath引擎的设计和实现

越来越多的XML应用以XPath来查询XML文档中的数据，如何有效的处理XPath查询成为这些应用的关键。本文充分考虑XML和XPath数据模型的特点，设计并实现了一个高效查询引擎OnceXPat

会议

浅谈土木工程的施工技术及创新

期刊

土木建筑施工技术创新

公路桥梁设计中的安全性及桥梁耐久性研究

期刊

公路桥梁设计方案安全性耐久性应用价值

一种高效的基于滑动窗口的数据流频繁元素挖掘算法

挖掘频繁元素是数据流研究领域的一个重要问题。由于数据流具有高速流动、规模无限等特点，因此在数据流上挖掘频繁元素很具挑战性，主要有：动态的维护概要数据结构;使用远小于数

会议

基于BIM技术在温州中小建筑企业的应用研究

期刊

BIM 技术中小建筑企业应用与障碍

电力工程设计中电力系统规划设计的运用分析

期刊

电力工程设计规划应用分析

一种挖掘股票数据有效关联规则的算法

从股票数据分析的实际应用出发，分析了经典Apriori算法的不足，主要从主观有效角度，考虑股票分析用户对规则的使用率，深入研究推导证明有意义的定理，提出了新的规则定义，在新的规则

会议

一种面向海量数据的多维数据划分查询优化方法

当前逐渐出现的大规模(TB甚至PB级)的数据库系统中，其庞大的数据规模，往往造成查询性能低下。针对这一现状，介绍了一种面向海量数据的多维度数据划分的查询优化方法，该方法将存放

会议

关于市政水利工程的管理对策探讨

期刊

市政水利工程问题建议对策

基于关联规则和特征码的快速去重方法

与本文相关的学术论文