基于LDA的主题分类系统研究

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:LQ0121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:当前人类处于信息爆炸的时代,对于海量的文本数据,可以利用人工智能的工具来提高数据分析处理的效率,来挖掘海量数据的宝藏。文章主要对文本的主题分类算法进行研究,通过改进分类方法并提出可视化方案,使主题分类具有更好的应用价值。首先通过利用LDA主题分类算法进行处理,并提出了一些改进方法使分类效果更优,并最终生成可视化的主题分类结果,进而用于推荐系统、数据挖掘、数据分析等领域。
  关键词:自然语言处理:主题分类;数据可视化
  自然语言处理是机器学习中的热门领域,随着Internet上数据产出的速度越来越快,文本挖掘广泛用于特征抽取、语义关系挖掘、文本聚类等领域,并且在实践的基础上对文本挖掘的算法进行了丰富的研究和改进。本文给出一个基于文档主题生成模型(Latent Dirichlet Allocation,LDA)的主题挖掘的完整应用,通过爬虫来抓取特定网站的数据,在数据预处理(包括分词、去停用词、词频计算、特征向量化)后,利用LDA主题分类算法进行处理,并通过对分类过程优化和算法改进,得到良好的主题分类效果,最终利用玫瑰图等可视化方式推送给用户,进而将结果利用在知识存储、推荐系统、数据分析等场景。本文最后以某老人健康网站为例,应用该系统展示分类效果。
  1 数据采集与预处理
  1.1获取数据源
  获取数据源的方式多种多样,为了面向数据不断积累的互联网,本节设计了爬虫组件来灵活获取数据源。爬虫[1],是按照一定规则来自动抓取万维网信息的程序或者脚本,是获取信息的有效方式之一。本文设计了基于双阻塞队列的并行化爬虫策略,对某老人健康网站持续爬取,截至当前积累了16 430篇有关老人养老、健康等方面的文章。
  1.2文本预处理
  对于文本预处理来说,首先需要对文本分词,对于中文的分词处理比拉丁系语言难度更大。和大部分西方语言不同,书面汉语的词语之间没有明显的空格标记,句子是以字串的形式出现。把字串变为词串难点在与消除歧义[2],本文使用Jieba分析系统,其python版本最高可以完成1.5 MB每秒的分词速度。
  其次对于原始文本来说,带有很多噪声,这时运用停用词过滤的技术进行文本预处理[3]。停用词除了不會让日常用词等噪声影响分析结果外,同时也极大降低了计算规模。预处理的最后一步,就是建立词袋模型,这是对语料集的特征向量化,为随后的计算做准备。
  2 文本主题分类
  2.1 LDA主题模型
  LDA为3层贝叶斯概率模型[4],包含文章、主题、词语3层结构,一种无监督的机器学习算法。在LDA中,主题是指在文本集合内具有隐含相关性的词语的组合,适用于文字信息的提炼和归纳。LDA建模过程的概率图模型如图l所示,其中,阴影部分里的圆圈表示观测变量,阴影外的圆圈表示隐含变量,箭头表示变量之间的关联。
  LDA主题建模的核心思想认为,一篇文档的生成是一个“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”的过程。在LDA中参数αfalse和βfalse由用户凭经验事先给定,LDA的概率图模型可以得到联合分布率公式:
  求解的常用方法包含EM算法、Gibbs抽样法等。本文采用Gibbs抽样法[5],其核心思想为每次只排除当前维度,然后给定其他维度的变量值采样,再用这些采样来估算出当前维度的值。不断重复迭代上述过程直到收敛,得到待估参数。
  2.2用TF-IDF改进系统
  对于LDA来说,可以发现潜在的主题,但是在分析过程中会有很大的噪声,这些噪声并不是常见的停用词,而是一些在文档中出现的某些干扰词,所以需要从“大局观”的角度来去除燥声,而TF_IDF[6]在这计算词汇重要度方面表现优异,可以通过对文档集进行非重要词过滤,同时保留重要度最高的那部分即可。
  3 数据分析
  3.1主题分类结果
  本文系统使用python开发,其中算法部分利用scikit-learn和numpy等开源框架实现,可视化部分利用G2[7]提供的工具。并利用采集的16 430个相关文章作为原始语料,进行分析处理和结果展示。对语料分为10个主题分析,并展示每类主题前8个关键词(见表2)。
  3.2数据可视化
  “一图胜干言”是数据可视化[8]在数据分析等领域作用的简短体现,便于我们得知其中隐藏的各种联系,进而便于展示和做出决策。主题分类输出的南丁格尔玫瑰图可视化结果如图2所示,可以推断出在该网站上,老人的饮食结构和心脑疾病是最受关注的,老人保健和运动相关主题其次。
  4 结语
  本文通过运用分词、停用词过滤、数据可视化等手段建立了基于LDA算法对互联网数据进行主题分类系统,通过对大量文本数据的主题模型建立,可以分析主题趋势和用户关注点。在大数据场景下,分布式处理是提高效率的有效手段,今后可以利用spark等开源分布式处理软件,提高本系统应对互联网海量数据的能力。
其他文献
近期,“索尼爱立信开发者嘉年华2009”开发日活动在北京举行。本次大会是索爱在中国大陆地区第一届面向手机内容及应用开发者的大会,旨在帮助开发人员及公司开辟“从创意到市场
从高职院校教育教学的特点出发,分析基础会计这门课程在实际教学中存在的问题,分别从教材、教学方法、教师知识结构等几个方面提出了改革建议,从而提高本课程的教材效果,为学生今
心理失调是指以情景性因素为主,进而导致个件发生心理失调的一类常见心里问题,是任何一个正常人可能发生的一种因周围情景刺激而引起的一过性或短暂性的情绪反应状态,一旦发生,常
单纯性肥胖病是一种常见的、多发性疾病。单纯性肥胖脂肪分布均匀,患者大多数与营养过剩引起,表现为面胖、颈肥厚、腹大,男子腹部脂肪主要分布在上腹部,女子分布在下腹部,女子啊还
日前,上海市经济与信息化委员会正式下发云计算3年产业规划,将努力建成全国云计算技术服务中心。上海市经信委表示,上海目前有13个“云计算”项目正在推进,预计总投资31.2亿元。《
王好为编导的《离婚》和马军骧编导的《纳妾》均由老舍的小说《离婚》改编而来,该改编个案的特色及可借鉴之处有:一、人物外貌设计强调神似;二、抓住原著核心打造独特风格;三
一、纳税人销售已使用固定资产的增值税政策2008年末我国出台增值税由生产型向消费型转型政策后,财政部、国家税务总局又先后出台了财税[2008]170号文。根据文件精神,除其他
一、会计服务行业人员准入的现状1.会计从业资格是从事会计工作的"准入证"目前我国从事会计服务行业的人员包括两部分:持"证"的和无"证"的。持"证"主要是指持有会计从业资格证(会计证)。
静息性脑卒中(SS)是指临床上缺乏症状和体征或仅有轻微症状和体征,不足以引起患者和医生的注意,也称无症状性脑卒中。由于它没有相应的神经系统症状和体征,多在体检或无明显针对性
如何集中管理、远程快速访问、降低应用成本?极通EWEBS应用虚拟化系统也许是个不错的选择。