论文部分内容阅读
大数据时代,文本信息量呈爆炸式增长,想要从中筛选有用类别信息极具挑战。“基于词语”和“基于模式”是文本分类领域两种有效的处理途径。“基于词语”方法以其易操作性,深受广大研究者青睐,但其性能受到同义词、一词多义及噪声问题制约。相比之下,“基于模式”方法凭借自身更多的有用信息,可以有效避免“基于词语”方法面临的问题,挖掘出的特征更具有鉴别力,对分类而言更为高效。论文主要研究基于最长闭频繁序列模式的文本分类方法,解决基于最长闭频繁序列模式的文本处理过程中数据预处理、最长闭频繁序列模式挖掘、特征选择与文本分类问题。主要工作包括:(1)基于词频统计规律的文本数据预处理方法文本挖掘性能被特征的“高维—稀疏”所困扰,在文本挖掘前进行有效数据预处理显得至关重要。提出基于词频统计规律的文本数据预处理方法:首先,基于齐普夫定律和最大值法推导出同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,发现词频为1和2的词语与文档关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行验证,结果表明:各频次词语分布规律是正确的;基于词频统计规律进行文本数据预处理,在保证分类性能的前提下,运行时间明显降低,文本挖掘效率得到显著提高。(2)文本最长闭频繁序列模式挖掘方法“基于模式”方法可以很好地解决“基于词语”所面临的诸多问题,对分类更加有效,执行效率优于“基于词语”方法。但实际应用中,挖掘出的大量频繁模式会降低其有效性。因此,从规模庞大的模式集合中选择最具区别力和代表性的模式尤为重要。提出文本最长闭频繁序列模式挖掘模型:首先,提出剪枝模型,用于去除噪声模式;其次,提出频繁序列模式扩展和频繁序列模式后缀集合提取模型,结合剪枝模型挖掘最长闭频繁序列模式;再次,提出基于包含度原理的冗余文本频繁模式筛选算法,通过冗余模式去噪,提升文本频繁模式挖掘性能;最后,挖掘出非冗余最具类别区分力的最长闭频繁序列模式。在公共数据集上的实验证实,提出的最长闭频繁序列模式挖掘模型是有效的。(3)基于最长闭频繁序列模式的文本特征选择方法对于高维数据处理,文本分类的关键任务是进行特征选择。由于文档中存在规模庞大的词语和模式,想要保证所挖掘特征质量是一项巨大挑战。模式挖掘面临长模式与新文档低匹配度问题,如何高效选择并利用文本中的有用模式仍是难题。提出基于最长闭频繁序列模式的特征选择方法:首先,提出最长闭频繁序列模式特征词语加权模型,将模式转换到词语空间,克服长模式与新文档低匹配度问题,并将词语在模式中的支持度作为其初始权重进行特征选择;然后,提出基于特异度的特征词语分类及权重更新模型,基于词语相对文档的特异度将词语划分为正特异词语和一般词语,并对两类词语进行权重更新。最后,得到基于最长闭频繁序列模式的特征集及对应权重。通过在公共数据集上的验证得知,该方法优于当前普遍应用的文本特征选择方法。(4)基于最长闭频繁序列模式的文本分类方法基于相似性进行文本分类是当前流行的文本处理方法,提出基于最长闭频繁序列模式的文本分类方法:首先,提出基于特征词语“缺失—存在”的文本相似性度量方法,旨在利用特征与文档间的隶属关系度量文档相似性,实现文本分类。该方法根据特征词语与文档间隶属关系,对特征进行全隶属、偏隶属和无隶属词集划分,并以此定义隶属度函数。全隶属词集隶属于两篇文档,隶属度随权差增大而降低;偏隶属词集仅隶属于其中某一篇文档,隶属度为一个定值;无隶属词集与两篇文档无隶属关系,隶属度为零。同类文档间,全隶属特征词语较多,偏隶属特征词语较少,且相似度越高的文档间全隶属词语权重越接近;异类文档间偏隶属特征词语较多,全隶属特征词语较少,且全隶属特征词语权重差异较大。其次,将文档间相似性度量方法,扩展为度量文档与文档集合间相似性;再次,将基于最长闭频繁序列模式的文本特征选择方法所选特征,用于该相似性度量方法;最后,将文档归入相似度最高的类别,实现文本分类。采用公共数据集验证分类性能,结果表明该分类方法优于传统方法和新方法。论文的创新点在于:基于词频统计规律进行数据预处理,可有效降低特征维度;基于包含度原理挖掘非冗余最长闭频繁序列模式,可通过冗余模式去噪提升文本频繁模式挖掘性能;基于最长闭频繁序列模式的特征选择方法所提取的特征充分考虑特征词语所在模式在文中的分布规律和特异性,与文档间关系界定更加清晰;基于特征词语“缺失—存在”的文本相似性度量方法,利用特征词语与两个文档间三种关系定义不同贡献度,特征类别划分更加合理,可明显提升分类精度。将基于最长闭频繁序列模式特征选择方法所选特征,用于基于特征词语“缺失—存在”的文本相似性度量方法,凸显了特征词语与文档间的关联,文档类别界定更加清晰,分类准确率得到显著提升。