基于主题的文本挖掘及可视化系统研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:feidog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及以及移动互联网的到来,当前人类处于信息爆炸时代,互联网产生数据的速度越来越快,其中文本数据是互联网中使用最普遍的格式。互联网中存储的海量数据,不仅为了便利用户使用及提高用户体验,同样可以从数据中分析提取出抽象信息,挖掘信息内在价值,进而用于推荐系统、用户画像等领域。其中主题分类技术在文本挖掘领域一直是一个热门话题,由于传统的主题分类算法效率不高,同时不能揭示文本数据的隐含主题信息。本文给出了基于LDA的主题分类算法,并提出了改进算法方案,降低了算法噪声,提高了算法的分类效果和效率。最后为了验证算法的应用性,设计了完整的可视化主题分类系统,并实现分布式算法用以处理大数据文本集,解决海量数据下的分类问题,下面将说明本文的主要工作。1.研究了传统主题分类、文本分类等方法的现状以及现有大数据处理技术应用和分布式计算模型方案,分析了基于文本主题词的分类算法,为了提高主题分类效果,挖掘语料集中的隐含主题与文本语义,进而研究浅层语义分析LSA、概念浅层语义分析PLSA,最后采用隐含狄利克雷分布LDA算法对文档集进行主题分类,并利用特征选择对算法进行优化。2.设计并开发主题分类系统。本文利用爬虫技术对某老人健康网站进行并发抓取,并解析得到网页文章数据,得到实际应用环境中的文本数据集。在中文文本分类中,对文本分词和停用词过滤是重要的先行步骤,通过对比实践,利用Jieba分词工具对原始文本进行分词,随后提出基于正则匹配的停用词过滤技术对分词结果进行匹配过滤处理,提高了停用词过滤效率和准确度。随后利用LDA算法模型对文本集进行主题分类,最后通过自行设计的可视化表现形式,对主题结果进行可视化展示到Web系统中,增强了用户体验性。3.为了验证算法在当下海量数据情景下的应用,采用Hadoop作为本文的大数据应用平台,并选择Hadoop生态环境下的Sqoop作为数据库与HDFS间数据转换工具,选择Mahout作为实现复杂算法的机器学习基础库,设计并开发大数据下的主题分类系统。首先研究了Hadoop平台下的核心组件分布式存储HDFS和分布式计算框架MapReduce的工作机制,随后对MapReduce提供的编程框架进行研究与实践,对本文核心算法进行分布式化分析与设计,该系统基于分布式存储技术,极大地扩展了算法可处理的数据规模,其处理结果对接可视化和Web展示组件,提高了大数据应用的可交互性。
其他文献
大数据是随着数据量和数据类型激增而出现的一种大规模、多样化的数据集。数量巨大、类型多样、增长迅猛的大数据对图书馆信息服务发展带来前所未有的机遇,将有效推动图书馆
本文来源于目前热门的清洁能源课题,探讨除了太阳能,风能,生物能源和核能之外,如何在传统的水能领域寻找新的能源利用方式:分布式微水电是在城市水管网络和水利设施领域中开发水能
我认为,干部素质宏观上可概括为“德”与“才”两大方面。所谓“德”是指干部的政治素质,这种素质决定着干部的工作愿望和干劲,做好工作的动机水平。一个人的“德”决定于他的世
期刊
在雇佣方式开始发生根本性变化,员工满意度和忠诚度降低、工作绩效下降、核心员工流失频繁等背景下,从心理契约的角度来研究员工的工作绩效越来越受到研究者的关注和重视,对心理
当前,民生问题已成为中国经济社会和谐发展中必须解决的重要问题之一,非营利组织在解决民生问题上发挥着关键作用,然而资金短缺、频发的信任危机严重阻碍了非营利组织的发展和壮
幼儿是祖国的花朵和未来,幼儿教育是学校教育的起点。以体育活动为主要内容的幼儿体育教育是学前教育的重要组成部分。体育教育教学内容的科学性、合理性与幼儿园体育教育教
模具是工业生产的主要工艺装备,是国民经济的基础工业。随着工业的发展,对模具的成型质量要求越来越高,传统凭经验,反复试模、修模的模具设计方法满足不了当前模具设计的要求。采
随着电信设备行业集成度的不断提高,设备单位体积产生的热量也不断增加。为了解决热量传出的问题,论文开展高速风扇的研究。无刷直流电机以其可靠性高、效率高、维护方便和调速
随着我国民航运输业的飞速发展,机场客货运输吞吐量快速提高,机场场面移动目标增多导致场面拥堵,飞机与飞机、飞机与车辆之间碰撞的可能性也成倍增长。因此如何降低机场场面运行
运用基于规模报酬可变的投入导向的超效率DEA模型,对在沪深两市上市的具有代表性的30家中国ITO企业的经营效率进行实证研究,结果表明中国上市ITO公司整体运营效率不高,且各企