论文部分内容阅读
随着互联网的普及以及移动互联网的到来,当前人类处于信息爆炸时代,互联网产生数据的速度越来越快,其中文本数据是互联网中使用最普遍的格式。互联网中存储的海量数据,不仅为了便利用户使用及提高用户体验,同样可以从数据中分析提取出抽象信息,挖掘信息内在价值,进而用于推荐系统、用户画像等领域。其中主题分类技术在文本挖掘领域一直是一个热门话题,由于传统的主题分类算法效率不高,同时不能揭示文本数据的隐含主题信息。本文给出了基于LDA的主题分类算法,并提出了改进算法方案,降低了算法噪声,提高了算法的分类效果和效率。最后为了验证算法的应用性,设计了完整的可视化主题分类系统,并实现分布式算法用以处理大数据文本集,解决海量数据下的分类问题,下面将说明本文的主要工作。1.研究了传统主题分类、文本分类等方法的现状以及现有大数据处理技术应用和分布式计算模型方案,分析了基于文本主题词的分类算法,为了提高主题分类效果,挖掘语料集中的隐含主题与文本语义,进而研究浅层语义分析LSA、概念浅层语义分析PLSA,最后采用隐含狄利克雷分布LDA算法对文档集进行主题分类,并利用特征选择对算法进行优化。2.设计并开发主题分类系统。本文利用爬虫技术对某老人健康网站进行并发抓取,并解析得到网页文章数据,得到实际应用环境中的文本数据集。在中文文本分类中,对文本分词和停用词过滤是重要的先行步骤,通过对比实践,利用Jieba分词工具对原始文本进行分词,随后提出基于正则匹配的停用词过滤技术对分词结果进行匹配过滤处理,提高了停用词过滤效率和准确度。随后利用LDA算法模型对文本集进行主题分类,最后通过自行设计的可视化表现形式,对主题结果进行可视化展示到Web系统中,增强了用户体验性。3.为了验证算法在当下海量数据情景下的应用,采用Hadoop作为本文的大数据应用平台,并选择Hadoop生态环境下的Sqoop作为数据库与HDFS间数据转换工具,选择Mahout作为实现复杂算法的机器学习基础库,设计并开发大数据下的主题分类系统。首先研究了Hadoop平台下的核心组件分布式存储HDFS和分布式计算框架MapReduce的工作机制,随后对MapReduce提供的编程框架进行研究与实践,对本文核心算法进行分布式化分析与设计,该系统基于分布式存储技术,极大地扩展了算法可处理的数据规模,其处理结果对接可视化和Web展示组件,提高了大数据应用的可交互性。