论文部分内容阅读
随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,数据是与自然资源、人力资源一样重要的战略资源;掌控数据资源的能力是国家数字主动权的体现。因此数据的收集、存储、处理、分析以及由此产生的信息服务正成为全球信息技术发展的主流,大数据研究和应用已成为产业升级与新产业崛起的重要推动力量。作为一种商业资本和战略资源,大数据在带给推动力的同时,也带来了挑战;如何在海量数据中探寻有价值的资源,是摆在研究者面前的首要任务。然而,海量信息中也夹杂了大量重复或相似内容,这些内容的存在,不但浪费了大量存储资源,降低网络的传输速度,也直接影响搜索引擎的整体性能,加重了用户寻找有价值资源的负担。大数据处理目标是以有效的信息技术手段和计算方法,挖掘和提取数据中的深度价值资源,为行业提供高附加值的应用和服务。因此,如何有效管理和利用海量信息,使用合适的技术,筛选掉其中无用或不相关的内容,快速高效地发掘出潜在价值的知识与信息,并进行合理分类、准确定位,是当前大数据处理中亟需解决的问题。因此,本论文针对大规模文本数据的相似检测问题,围绕数据的分类与挖掘、特征提取、相似检测、Map Reduce计算模型等相关理论和关键技术的研究,设计了以关联规则和朴素贝叶斯为基础的多重置信门限值分类分类方法;提出基于互信息的词频文本特征提取方案;构建了并行化的大规模文本相似检测平台。本研究在理论上具有创新性,实践上有可行性。具体来说,主要工作与创新体现在以下方面:1.针对相似检测的背景知识,研究针对文本分类的相关理论与技术。文本分类的任务是在给定的分类体系下,根据每类样本的数据信息,建立相应的类别判定公式和类别判定规则,并总结出分类规律。这样,当需要为待分类文本确定其类别时,根据已总结的类别判定公式和类别判定规则,就能够把待分类文本划分到相应的类别中去。分类过程包括:文本预处理、特征选择、特征加权、文本表示和分类算法等关键技术;论文在对上述过程进行深入的研究后,重点研究分类器的设计与实现、分类评价标准等;上述过程的研究,为文本相似检测奠定理论基础。2.针对相似检测过程分类精确率低等问题,结合朴素贝叶斯分类和关联规则挖掘,提出了一种具有多重门限值的分类方法。该方法应用于大规模文本数据集的分类过程,能有效地提高文档分类精确度。由于贝叶斯分类优点在于计算过程简单,但忽略了文本词组间的相互联系,所以可采用关联规则挖掘方法,为有关系的文本类设定合适置信门限值,分类器将为文档分类的执行获得较高的精确率,从而弥补了贝叶斯分类的缺点。该方法首先通过算法将预处理的文本数据库转变成关联规则,在排序规则集中,对训练数据集的分类从第一条规则开始判断,若第一条规则分类精确率比指定规则的置信门限值高,则从训练数据集中删除通过指定规则分类的数据,并且保存这一规则到规则集中去,创建关联分类器;否则,这一规则将从分类器中删除。该过程一直重复进行下去,直到所有排序的规则都被识别后,获得所有支持度大于最小支持度的关联规则。实验验证表明,该方法相比较于单独分类器的分类结果,能够获得较高的分类精确率和召回率。3.针对在相似检测过程中,提取特征向量精度低、特征子集数量大的问题,提出了基于互信息的词频文本特征提取方法。该方法以输入类别集合、各个类别中文本和每个文本词条在类别中出现次数为初始条件,首先,对输入类别的文本进行分词建立索引,然后对文本中词条循环读取,在训练集内的每个类别文本中计算特征词出现次数大于或等于某个值的文本数;接着,计算特征词相对于每个类别的特征频率和每个文本中出现的平均次数;最后,在各个类别中计算词条互信息值,将值最大的词条放入特征集合中,直到特征词个数达到阈值后,完成对文本特征的提取。通过在Sogou T语料库上测试和验证,该方法不仅能够获取较小特征子集,而且保持了较高分类精度。4.针对大规模文本数据相似检测过程中,数据量大、并行设计方法复杂且效率低的问题,提出了云平台下的大规模文本相似检测方法。该方法借鉴Sim Hash算法,使用段落加权长句的方法来获得段落指纹,然后利用Map Reduce计算模型计算相似度。具体来说,首先采用特征提取方法获得文本的段落指纹,将该指纹作为关键字排序并建立索引;其次用待检测文本的段落指纹在已有的文本库中进行索引,检索出可能重复或相似的文本;最后,根据检索的结果,与待检测文本执行相互的具体相似度计算,根据计算结果,决定待检测文本是否与已有文本近似。通过搭建Hadoop实验平台,采用三种不同规模的网页数据集来验证所设计方案的可行性,在数据集上分别执行运算时间和加速度比测试,实验数据表明,经过Map Reduce并行化设计后,相似检测的执行时间和效率得到显著的改善,特别是随着数据规模的增大和Hadoop集群中机器数量的增多,算法效率提升更明显,针对大规模数据集的相似检测优势更加突出。