基于大规模文本数据集的相似检测关键技术研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wanghao7511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,数据是与自然资源、人力资源一样重要的战略资源;掌控数据资源的能力是国家数字主动权的体现。因此数据的收集、存储、处理、分析以及由此产生的信息服务正成为全球信息技术发展的主流,大数据研究和应用已成为产业升级与新产业崛起的重要推动力量。作为一种商业资本和战略资源,大数据在带给推动力的同时,也带来了挑战;如何在海量数据中探寻有价值的资源,是摆在研究者面前的首要任务。然而,海量信息中也夹杂了大量重复或相似内容,这些内容的存在,不但浪费了大量存储资源,降低网络的传输速度,也直接影响搜索引擎的整体性能,加重了用户寻找有价值资源的负担。大数据处理目标是以有效的信息技术手段和计算方法,挖掘和提取数据中的深度价值资源,为行业提供高附加值的应用和服务。因此,如何有效管理和利用海量信息,使用合适的技术,筛选掉其中无用或不相关的内容,快速高效地发掘出潜在价值的知识与信息,并进行合理分类、准确定位,是当前大数据处理中亟需解决的问题。因此,本论文针对大规模文本数据的相似检测问题,围绕数据的分类与挖掘、特征提取、相似检测、Map Reduce计算模型等相关理论和关键技术的研究,设计了以关联规则和朴素贝叶斯为基础的多重置信门限值分类分类方法;提出基于互信息的词频文本特征提取方案;构建了并行化的大规模文本相似检测平台。本研究在理论上具有创新性,实践上有可行性。具体来说,主要工作与创新体现在以下方面:1.针对相似检测的背景知识,研究针对文本分类的相关理论与技术。文本分类的任务是在给定的分类体系下,根据每类样本的数据信息,建立相应的类别判定公式和类别判定规则,并总结出分类规律。这样,当需要为待分类文本确定其类别时,根据已总结的类别判定公式和类别判定规则,就能够把待分类文本划分到相应的类别中去。分类过程包括:文本预处理、特征选择、特征加权、文本表示和分类算法等关键技术;论文在对上述过程进行深入的研究后,重点研究分类器的设计与实现、分类评价标准等;上述过程的研究,为文本相似检测奠定理论基础。2.针对相似检测过程分类精确率低等问题,结合朴素贝叶斯分类和关联规则挖掘,提出了一种具有多重门限值的分类方法。该方法应用于大规模文本数据集的分类过程,能有效地提高文档分类精确度。由于贝叶斯分类优点在于计算过程简单,但忽略了文本词组间的相互联系,所以可采用关联规则挖掘方法,为有关系的文本类设定合适置信门限值,分类器将为文档分类的执行获得较高的精确率,从而弥补了贝叶斯分类的缺点。该方法首先通过算法将预处理的文本数据库转变成关联规则,在排序规则集中,对训练数据集的分类从第一条规则开始判断,若第一条规则分类精确率比指定规则的置信门限值高,则从训练数据集中删除通过指定规则分类的数据,并且保存这一规则到规则集中去,创建关联分类器;否则,这一规则将从分类器中删除。该过程一直重复进行下去,直到所有排序的规则都被识别后,获得所有支持度大于最小支持度的关联规则。实验验证表明,该方法相比较于单独分类器的分类结果,能够获得较高的分类精确率和召回率。3.针对在相似检测过程中,提取特征向量精度低、特征子集数量大的问题,提出了基于互信息的词频文本特征提取方法。该方法以输入类别集合、各个类别中文本和每个文本词条在类别中出现次数为初始条件,首先,对输入类别的文本进行分词建立索引,然后对文本中词条循环读取,在训练集内的每个类别文本中计算特征词出现次数大于或等于某个值的文本数;接着,计算特征词相对于每个类别的特征频率和每个文本中出现的平均次数;最后,在各个类别中计算词条互信息值,将值最大的词条放入特征集合中,直到特征词个数达到阈值后,完成对文本特征的提取。通过在Sogou T语料库上测试和验证,该方法不仅能够获取较小特征子集,而且保持了较高分类精度。4.针对大规模文本数据相似检测过程中,数据量大、并行设计方法复杂且效率低的问题,提出了云平台下的大规模文本相似检测方法。该方法借鉴Sim Hash算法,使用段落加权长句的方法来获得段落指纹,然后利用Map Reduce计算模型计算相似度。具体来说,首先采用特征提取方法获得文本的段落指纹,将该指纹作为关键字排序并建立索引;其次用待检测文本的段落指纹在已有的文本库中进行索引,检索出可能重复或相似的文本;最后,根据检索的结果,与待检测文本执行相互的具体相似度计算,根据计算结果,决定待检测文本是否与已有文本近似。通过搭建Hadoop实验平台,采用三种不同规模的网页数据集来验证所设计方案的可行性,在数据集上分别执行运算时间和加速度比测试,实验数据表明,经过Map Reduce并行化设计后,相似检测的执行时间和效率得到显著的改善,特别是随着数据规模的增大和Hadoop集群中机器数量的增多,算法效率提升更明显,针对大规模数据集的相似检测优势更加突出。
其他文献
珠心算犹如一株鲜艳的奇葩,从珠算的沃土中破土而出,散发出诱人的芳香,令人赏心悦目。珠心算是我国文化宝库中一个创举,是珠算的发展,珠算的升华。二十多年来,将别是近五年来,珠心算
预算执行动态监控机制是现代财政国库管理体系的重要组成部分,是预算执行管理的重要工具,也是财政大监督的重要内容。本文通过分析江苏省常州市预算执行动态监控工作开展的基
沥青路面使用性能关键指标的临界范围是确定路面所处状态、选择路面养护时机的关键参数. 针对高速公路沥青路面预防性养护时机问题,结合国内外研究成果及我国沥青路面实践,探
实验教学对培养学生的实践动手能力起着重要作用,以信号分析与处理课群实验课为例,研究实验网络化评分体系的改革,通过建立科学的信号分析与处理课群的实验评分体系,采取多种
基于图像深度感知,即从图像中恢复深度信息,是计算机视觉领域的核心问题之一。它在传统的三维建模,机器人导航以及新兴的移动消费领域都有着广泛的应用。基于图像深度感知的
图像配准作为模式识别和图像处理领域中的一个基本课题,在计算机视觉、遥感技术、图像融合、图像超分辨率重构和医学图像处理等很多领域都有着广泛地应用。随着应用技术的发
披荆斩棘,七十载,风雨兼程。乘风破浪,新长征,砥砺前行。文明古国虽独存,百载沉沦待复兴。绘双百宏图明使命,聚人心。高科技,日日新;高速度,世界惊。
我国政府购买养老服务已实施近二十年,随其不断的推进,各级财政部门所拨付的资金也越来越多,但养老服务质量却不尽人意,故为了保证养老服务购买的公平和服务质量,需要加强对
形态分析与形态小波分析技术是数字图像处理的重要核心技术,随着形态分析与形态小波分析理论研究的不断深入和应用范围的不断扩大,出现了一些亟待解决的问题。如数字空间中结
位置社交网络的广泛使用与其规模的不断扩大使得地点推荐系统成为时下热门应用之一。地点推荐系统即为用户推荐那些他可能感兴趣地点的系统,其中地点通常指真实存在于城市中