论文部分内容阅读
随着互联网的发展,网络中的信息数据以前所未有的速度快速增加着。文本作为网络数据的主要表现形式之一,蕴含着丰富的信息。文本分类技术是自然语言处理的重要部分,通过文本分类能挖掘到文本数据很多潜在的价值。互联网上的数据挖掘技术往往伴随着海量规模的数据集。计算速度是这类问题重点优化的因素之一。通过算法并行化可以提高计算速度。使用计算机集群或图形处理器等硬件环境则可以提高算法的并行计算能力。本论文目的是提高海量文本分类的精度与速度,分析了文本分类技术与并行化技术。介绍了中文文本处理的分词、去停用词、文本向量表示、特征选择、权重计算过程,对比了不同分类算法的特点,并介绍了人工智能优化算法。本文选择了GPU、Hadoop以及Spark的并行计算平台进行介绍与分析。对文本分类精度的提高,本文提出了文本特征空间迭代优化算法。算法针对每次生成的特征空间存在的如类别混淆等不足进行修正,以生成新的特征空间提高分类精度。此外,引入粒子群优化算法用于径向基核函数支持向量机的参数调优,以找到具有更高精度的径向基核参数。对分类速度的提高,是通过算法并行化达到的。本文对文本的预处理、线性核与径向基核函数的支持向量机均进行了并行实现,通过将算法中迭代部分进行高并发计算、将算法中适合拆分的部分使用Map/Reduce进行计算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了计算速度,扩展了算法处理的数据规模。在实验的设计与实施上,本文进行了新闻文本分类与微博情感分类两组实验。两组数据集具有各自的特点,分别代表了两种文本分类的实际应用。文本特征空间迭代优化算法对新闻分类效果显著,妥善处理了类别之间的混淆情况。微博正文附加评论的方法扩展了文本内容,加上粒子群调优的径向基核支持向量机,微博情感分类也有较高的精度。数据集的规模从小到大,使用串行算法耗费很长时间的数据集,通过并行实现能够达到生产环境中可以接受的较短时间。