基于LDA模型和SVM的文本分类研究

来源 :网友世界 | 被引量 : 0次 | 上传用户:tomsue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】LDA是生成式概率模型,从理论上说,具有其他模型无可比拟的建模优点;SVM分类算法在文本分类上具有独特的优异性能,本文将前者良好的文本表示性能、降维效果与后者强大的分类能力结合起来。实验表明,该方法克服了传统选择方法带来的分类性能受损问题,并且能够在降低数据维度的条件下提高分类的正确率。
  【关键词】LDA模型;文本分类;SVM算法;主题分析;Gibbs抽样
  隐含狄利克雷分配(LDA)模型是近年来提出的一种表示文本主题能力的非监督学习模型[1]。LDA对文档建模,降低了计算的维度,简化了问题的复杂性,同时也为模型的改进提供了契机。每篇文档是由若干个主题构成,不同类别的文档由概率各不相同的主题随机混合构成,同理,同一类别的文档具有相似的主题概率分布,LDA是一个主题模型的例子,可以用图的模型来表示[2]。本实验首先经过一系列的文本预处理后,通过Gibbs抽样生成文档的LDA模型,然后结合分类性能出色的SVM算法,对降维后的文本数据进行分类。
  1.LDA模型
  在文本分类中,分类方法的选择与实现是分类系统的核心部分,如何选择一个合适的分类模型是一个重要的问题[3]。目前的概率主题模型一般基于同样的思想:文本是若干主题的随机混合,不同的模型会进一步做不同的统计假设,以不同的方式获取模型参数。
  1.1 模型概况
  LDA是一种概率主题模型[4],我们以P(z)代表主题z在一个特定文档上的分布,P(w|z)代表主题z上单词的概率分布。该模型将主题混合权重视为k维参数的潜在随机变量,而非与训练数据直接联系的个体参数集合,推理上采用Laplace近似、变分近似以及期望-扩散[5]等方法获取参数值。P(zi=j)表示在第j个主题抽取第i个单词的概率。P(wi|zi=j)表示单词wi在主题j下的概率。在一个文档中单词的分布概率如下:
  T是主题总数。为了简化模型,以φ(j)=
  P(w|z=j)来表示主题j的多项式分布我们以θ(d)=P(z)来表示文档d的主题多项式分布。在多项式分布p=(p1,…,pT)上的T维度的狄利克雷分布的被定义为:
  1.2 支持向量机算法
  支持向量机(Support Vector Machines,SVM)是二十世纪九十年代中期在统计学习理论基础上发展起来的一种新型机器学习算法,采用结构风险最小化准则训练学习机器[6]。
  2.文档建模
  我们通过一系列词索引wi和文档di来表现一系列的文档。我们写这个条件概率分布为P(zi=j|z-i,wi,di,.),zi=j代表词i分配给主题j,z-i代表其它所有词的主题分配,α和β代表超参数。条件分布公式如下:
  和分别是W*T和D*T维的计数矩阵,表示词w赋值给j的数目,包含了赋给文档d中的一些词的主题的数目,不包括当前的实例i。
  2.1 Gibbs抽样过程
  抽样算法给了每一个词的直接估计,然而许多模型例子需要估计主题-词分布φ’和文档-主题分布θ’,这可以通过下面的计数矩阵获得。
  2.2 LDA模型的矩阵表示法
  LDA模型可以用矩阵分解的方式表达出来,通过矩阵分解,我们可以构造出LDA的概率模型。LDA模型的矩阵表示法如下:
  C代表文档-词组分布矩阵,φ代表主题-词组矩阵,Θ代表文档-主题模型,利用上面的矩阵模型,结合上面的公式,我们就可以构造Gibbs抽样的LDA概率主题模型。
  3.基于LDA模型的文本分类
  3.1 文本分类方法
  基于LDA模型的文本分类方法使用LDA作为语料库及文本建模。主要包括预处理,模型选择,语料库建模,分类方法,效果评估5个部分。文档数据如下表。
  3.2 试验结果分析
  中文语料库经过分词,去除停用词后,采用LDA模型对整个文档进行主题建模,=50/T,=0.01,文档集T取50,迭代500次。每个文本表示为包含50个主题的主题集上的多项式分布,得到文档集的隐含主题-文本矩阵,在该矩阵上构造SVM分类器。得到的主题-文本矩阵如下:
  4.总结
  本文利用LDA为所给的语料库建立模型,由于LDA是完全的生成型,所以理论上有其他模型无可比拟的建模优点。利用本方法能够识别包含一系列词组的文档的隐含结构,基于LDA模型的文本分类方法,采用Gibbs抽样进行参数推理和估计,采用SVM分类算法,对文档集合进行分类获得了较好的分类效果,体现了本方法的有效性和优越性。下一步的工作将要尝试一些方法来提高大规模主题建模的速度。
  参考文献:
  [1]Blei,David M.Ng,Andrew Y.Jordan,M.I.(January 2003).Latent Dirichlet allocation[J].Journal of Machine Learning Research,3,993-1022.
  [2]石晶,范猛,李万龙.基于LDA模型的主题分析[J].自动化学报,2009,35(12):1586-1592.
  [3]张华平.中文信息处理技术发展简史[EB/OL].http://www.nlp.org.cn,中国科学院计算技术研究所软件实验室,2002.
  [4]Steyvers M,Griffiths T.Probabilistic topic models.Hand-book of Latent Semantic Analysis[M].New Jersey:Springer,2007.
  [5]Minka Thomas,Lafferty John.Expectation-propagation for the generative spect model[J].Proceedings of the Uncertainty in Artificial Intelligence.(UAI)Edmonton,Alberta,Canada,2002:352-359.
  [6]Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transationson Intelligent Systems and Technology,Vol2.USA,ACM:2011.
  作者简介:
  李小三(1987-),男,河南武陟人,长安大学2011级信号与信息处理专业研究生,研究方向:信息检索技术。
  雷康(1986—),男,陕西岐山人,长安大学2011级智能交通及信息系统工程专业研究生,研究方向:物联网Zigbee技术。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
为了研究磁流变液在不同磁场作用下的壁面滑移特性,依据圆筒剪切流体动力学理论推导了磁流变液的滑移速度计算公式,设计并搭建了用于检测磁流变液壁面滑移特性的实验装置.利
在Hilbert空间框架下,利用一种改进后的正则化方法建立了一个对于渐近非扩张映射的迭代算法来求解分裂可行性问题,在一定条件下证明了该算法序列的强收敛性.研究结果改进和推
为了在实现河流治理核心目标的同时更好地提升地方特性、促进产业融合、节约建设成本,在河流治理工程中考虑旅游要素的植入.在探讨旅游要素植入内涵的基础上,结合小型河流治
目的探讨不同年龄段下肢骨折病人在骨折后24 h内血浆D二聚体(D-dimer,D-D)水平测定的临床意义及其关系。方法随机选择150例本院骨科下肢骨折病人,组成A(<25岁)、B(25~50岁)、C
为了探究铝空气电池的相关性能,设计了一种由电极和电解液组成的铝空气电池,并对影响电池性能的电解液pH值、电解液物质的量浓度及电池的层数进行了分析.结果表明:铝空气电池
通过分步溶剂热反应法,以Eu^3+为中心离子,以2-噻吩甲酰基三氟丙酮(HTTA)、苯甲酰丙酮(BZA)、β-六氟乙酰丙酮(HFAC)、二苯甲酰基甲烷(DBM)及三苯基氧膦(TPPO)、1,10-邻菲罗
土地利用变化及驱动力研究是环境变化及人地关系研究的重要部分.为研究不同地区多时段土地利用变化及其驱动力,应用自组织映射算法将浙江省11个市1995年、2000年、2005年、20
服务社会是当代高校的主要职能之一,萍乡市作为全国资源枯竭型城市,在其经济发展与转型过程中,如何利用国家的政策,发挥高校科技服务地方经济的建设,建立、健全政府、企业与
为了高效促进新能源汽车企业能够协调发展,使得新能源汽车产业高度与节能减排目标相融合,我国出台了双积分管理办法。鉴于此,论文基于PDCA循环模式,借助双积分汽车管理办法,