面向海量短文本去重技术的研究与实现

被引量 : 0次 | 上传用户:ananluo2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的迅猛发展和信息传播手段的进步,即时通讯、BBS、新闻组、电子邮件等以短文本方式出现的信息也快速增长。消息文本的快速增长给人们的生活带来了便利的同时,也因其产生的速度超过人们的利用效率,使得人们难以从中获取有用信息,并且有害和无用信息严重影响了政府部门、公司、企业等管理者的决策。研究表明,海量文本中存在近乎1/2的重复信息,通过文本去重,不仅能够优化数据存储,同时也能作为热点问题供用户分析和决策。文本自动去重做为文本挖掘的基础技术之一,不仅可以作为数据准备阶段的处理技术(如数据整合、数据清理、数据变换),也可以作为数据分析的处理技术(如:发现重复记录)。现有的文本去重技术主要有:域匹配技术和发现重复记录技术。域匹配技术能够有效的判断和识别错误拼写、缩略词、多词等数据脏乱问题,发现重复记录通过机器学习、智能分析等手段,把重复或相似的文本放入相同的类中,从而实现对短文本的识别。由于短文本的简短性和海量性,制约了文本去重技术的应用。因为缺乏有效的短文本表示方式和特征选择方法,目前的分类、聚类等去重方法在短文本去重领域中得不到很好的应用。因此,针对文本自动去重在文本挖掘系统中的应用,并结合用户的需求,本文作了如下工作:1、提出了ARFA去重算法(Association Rule and Feature Code Based FastRemove Duplication Algorithm,ARFA)。该算法考虑到文本属性间的关系,利用关联规则对文本进行划分,然后利用特征码发现重复文本,从而实现对海量短文本的快速去重。实验结果证明,该算法具有良好的特性,能够有效的处理海量信息,并具有较高的压缩比。2、扩展ARFA算法,提出了ARFA-SA算法(ARFA-Based Similar de-duplicationAlgorithm,ARFA-SA)。该算法在ARFA算法的基础上实现对短文本的相似度去重。根据相似度假设,通过文本相似度计算,把相似的文本放到相同的分组,实现了短文本的相似度去重。3、给出了文本去重算法的具体应用,把文本去重应用于文本挖掘系统中,实现了自动发现重复记录和优化数据存储的功能。自动发现重复记录能够发现群发用户、集中接收方用户、相关ID。优化存储能够根据发现的重复记录,删除或合并冗余数据,达到优化存储的目的。
其他文献
人类自从在地球上出现以来,很快便有了农业的出现,这是人类第一次利用大自然改变大自然的变革之举,同时人类也进入了一个新时代,而随着人类文明的不断进步不断发展,特别是在1
魏后凯(2002)和武剑(2002)得到两个看似矛盾的结论:东西部区域经济增长差异的90%和不到20%是源自于外商直接投资。本文借鉴李子奈(2008)计量经济建模的"一般性"和"唯一性"原
在原始精神和原始思维中 ,非理性先于理性、非逻辑思维先于逻辑思维而产生。在漫长的历史长河中 ,它们浑沌地统一在一起 ,这其中非理性在人类早期精神和思维的进化中发挥了十
茶叶是我国一种具有文化底蕴的传统健康饮品,同时也是重要的经济作物。我国西南地区是世界茶树的原产地,主要分布在四川、重庆和贵州等地。该地区自然条件优越,环境污染少,有
人类思维和行为的一个重要特征是指向未来。指向未来的心理结构——未来取向(future orientation)是一个包括多维度、多阶段的心理过程。根据Nurmi从认知-动机角度提出的过程
附子属乌头碱类药物,味辛甘,性大热,有毒,温中回阳散寒止痛,有较强的镇痛作用,是治疗关节炎、腰腿痛的常用中药.但由于种种原因,临床上附子中毒时有发生.马龙县人民医院自2006年1月至2
以武汉农村产权交易市场为分析对象,借助于武汉农村综合产权交易所数据和案例,采用定性分析、定量分析和案例分析,重点分析了农村产权交易中的信息不对称问题。农户是产权交
合成孔径雷达成像技术作为一种新的雷达成像技术,现已广泛应用于军事和国民经济的许多领域中。随着SAR应用的日益广泛,许多诸如SAR系统设计、成像算法研究和评估、噪声和杂波
合成孔径雷达(SAR)作为一种利用微波成像的遥测手段,具有全天时、全天候的优点,在军事、民用方面有着广泛的应用前景。由于微波成像的非直观性,给人工判读和机器解译带来了多
马尔库塞的美学思想完全建立在他对资本主义及当代发达工业社会的批判理论基础之上。正因为如此,马尔库塞的美学在他的整个思想体系中占有十分重要的地位。在他看来,美学始终