基于支持向量机的海量文本分类并行化技术研究

被引量 : 0次 | 上传用户:hjm19840220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络中的信息数据以前所未有的速度快速增加着。文本作为网络数据的主要表现形式之一,蕴含着丰富的信息。文本分类技术是自然语言处理的重要部分,通过文本分类能挖掘到文本数据很多潜在的价值。互联网上的数据挖掘技术往往伴随着海量规模的数据集。计算速度是这类问题重点优化的因素之一。通过算法并行化可以提高计算速度。使用计算机集群或图形处理器等硬件环境则可以提高算法的并行计算能力。本论文目的是提高海量文本分类的精度与速度,分析了文本分类技术与并行化技术。介绍了中文文本处理的分词、去停用词、文本向量表示、特征选择、权重计算过程,对比了不同分类算法的特点,并介绍了人工智能优化算法。本文选择了GPU、Hadoop以及Spark的并行计算平台进行介绍与分析。对文本分类精度的提高,本文提出了文本特征空间迭代优化算法。算法针对每次生成的特征空间存在的如类别混淆等不足进行修正,以生成新的特征空间提高分类精度。此外,引入粒子群优化算法用于径向基核函数支持向量机的参数调优,以找到具有更高精度的径向基核参数。对分类速度的提高,是通过算法并行化达到的。本文对文本的预处理、线性核与径向基核函数的支持向量机均进行了并行实现,通过将算法中迭代部分进行高并发计算、将算法中适合拆分的部分使用Map/Reduce进行计算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了计算速度,扩展了算法处理的数据规模。在实验的设计与实施上,本文进行了新闻文本分类与微博情感分类两组实验。两组数据集具有各自的特点,分别代表了两种文本分类的实际应用。文本特征空间迭代优化算法对新闻分类效果显著,妥善处理了类别之间的混淆情况。微博正文附加评论的方法扩展了文本内容,加上粒子群调优的径向基核支持向量机,微博情感分类也有较高的精度。数据集的规模从小到大,使用串行算法耗费很长时间的数据集,通过并行实现能够达到生产环境中可以接受的较短时间。
其他文献
本文以《基于云平台的网络影视在线教育培训系统》研究项目为背景,探索社会热点与网络教学相融合的新模式,实现根据最新热点推荐相关网络课程的目标。针对新闻内容的获取问题
研究仿射非线性系统的能控性问题.利用向量场族对应的积分曲线定义系统的能控性,建立一个新的基于漂移向量场弱泊松稳定的能控性判据,并给出了完整的证明.利用该结论对定义在
西南桦是一个非常有发展潜力的速生珍贵用材树种,具有重要的生态、经济价值。通过氯气不同时间消毒试验和氯气、次氯酸钠、升汞3种不同消毒方法试验,比较不同氯气消毒时间和
<正>在百度上输入"木智工坊",至少能搜索出近三页的相关信息。从2010年初开始,豆瓣上有网友开始广泛推荐和关注"木智工坊"小组和相册,与此同时,"木智工坊"的Blog点击率疾速倍
<正>进入21世纪以来,能源危机或能源短缺已成为全世界普遍关心的主要问题之一,世界各国对其关注程度越来越高。中国"富煤、贫油、少气"的能源格局决定了在很长一段时间内,煤
<正>静脉输液微粒是指通过静脉输入液体中的非代谢性颗粒杂物,其直径一般在1~15μm,少数较大的可达50~300μm。输入溶液中微粒的多少决定着液体的透明度,因此,可由此判断液体
供应链金融是近几年国内商业银行为适应供应链企业的金融需要而发展起来的一项新兴业务。国内商业银行大多数已推出供应链金融产品或服务方案,各有特色。本文在分析国内主要
"一事不再罚"原则是行政法领域中的重要原则,也是行政法学界争论的热点问题。由于我国《行政处罚法》确立的"一事不再罚"原则较为笼统,导致其在行政处罚实践运用中存在诸多困
建筑信息模型(BIM)是数字技术在建筑业中的直接表达,我国从2003年开始引入BIM技术,在过去的十年中,BIM技术在我国发展很快,许多具有影响力的工程,比如上海中心大厦、广州东塔
在E时代,网络舆论作为现实社会舆情在虚拟社会的投映,往往是民意的一种集中表达,在与各级政府的多维互动中,需要各级政府做出积极回应并进行理性引导和处置,这既是在检验政府