论文部分内容阅读
随着计算机技术的迅猛发展和信息传播手段的进步,即时通讯、BBS、新闻组、电子邮件等以短文本方式出现的信息也快速增长。消息文本的快速增长给人们的生活带来了便利的同时,也因其产生的速度超过人们的利用效率,使得人们难以从中获取有用信息,并且有害和无用信息严重影响了政府部门、公司、企业等管理者的决策。研究表明,海量文本中存在近乎1/2的重复信息,通过文本去重,不仅能够优化数据存储,同时也能作为热点问题供用户分析和决策。文本自动去重做为文本挖掘的基础技术之一,不仅可以作为数据准备阶段的处理技术(如数据整合、数据清理、数据变换),也可以作为数据分析的处理技术(如:发现重复记录)。现有的文本去重技术主要有:域匹配技术和发现重复记录技术。域匹配技术能够有效的判断和识别错误拼写、缩略词、多词等数据脏乱问题,发现重复记录通过机器学习、智能分析等手段,把重复或相似的文本放入相同的类中,从而实现对短文本的识别。由于短文本的简短性和海量性,制约了文本去重技术的应用。因为缺乏有效的短文本表示方式和特征选择方法,目前的分类、聚类等去重方法在短文本去重领域中得不到很好的应用。因此,针对文本自动去重在文本挖掘系统中的应用,并结合用户的需求,本文作了如下工作:1、提出了ARFA去重算法(Association Rule and Feature Code Based FastRemove Duplication Algorithm,ARFA)。该算法考虑到文本属性间的关系,利用关联规则对文本进行划分,然后利用特征码发现重复文本,从而实现对海量短文本的快速去重。实验结果证明,该算法具有良好的特性,能够有效的处理海量信息,并具有较高的压缩比。2、扩展ARFA算法,提出了ARFA-SA算法(ARFA-Based Similar de-duplicationAlgorithm,ARFA-SA)。该算法在ARFA算法的基础上实现对短文本的相似度去重。根据相似度假设,通过文本相似度计算,把相似的文本放到相同的分组,实现了短文本的相似度去重。3、给出了文本去重算法的具体应用,把文本去重应用于文本挖掘系统中,实现了自动发现重复记录和优化数据存储的功能。自动发现重复记录能够发现群发用户、集中接收方用户、相关ID。优化存储能够根据发现的重复记录,删除或合并冗余数据,达到优化存储的目的。