基于LDA模型的文本分类研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:a447047964
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。它是信息检索、机器学习和自然语言处理的热点和关键技术之一。近几年,人们开始将机器学习的方法应用到文本自动分类领域。文本分类系统主要包括文本表示、预处理、特征降维、分类方法和效果评估5个部分。本文应用LDA(Latent Dirichlet Allocation)概率增长模型,对文档集进行主题建模。克服了采用特征抽取方法带来的分类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题。本文主要工作及创新点在于:1.针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,本文提出了一种基于LDA模型的文本分类方法。在判别模型SVM框架中,应用LDA (Latent Dirichlet Allocation)概率增长模型,对文档集进行主题建模。利用MCMC (Markov chain Monte Carlo)中的Gibbs抽样进行推理,间接计算模型参数,获取文本在主题集上的概率分布。在文档集的隐含主题一文本矩阵上训练SVM(Support Vector Machine),构造文本分类器。在中英文语料库上进行分类实验,验证基于LDA模型的分类方法的有效性和优越性。2.针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题。本文参考基于密度的聚类算法DBSCAN中计算样本密度的思想来度量主题之间的相关性,提出了基于DBSCAN的最优主题数选择算法。在本文搭建的自动文本分类系统的实验平台上,将分别采用贝叶斯理论的标准方法和基于DBSCAN的最优主题数选择方法,寻找语料库的LDA模型的最优主题数T。实验结果表明,与贝叶斯中标准方法和基于HDP的最优主题数选择方法相比,本文提出的基于DBSCAN的最优主题数选择方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构。
其他文献
目前,不断发展的生活水平和医疗技术,促使人类预期寿命明显增长,中国严格实施多年的计划生育政策,降低了少年人口的比重,中国人口结构快速老龄化、高龄化。如何满足老人不断
人类进入21世纪,一种全新的营销新浪潮-—创意营销,正在席卷而来。由于科学技术的发展,我们正在迎来一场前所未有的振荡与变革,社会的发展方向、人们的生活方式、企业的运营
本试验研究了不同剂量甘氨酸铜与硫酸铜(250㎎?㎏)对断奶仔猪生长性能、免疫机能、血液生理生化指标以及激素指标的影响,探讨甘氨酸铜适宜的添加水平,为甘氨酸铜的合理使用提
传统的领导理论大都关注建设性的、有效的和成功的领导,而作为一种负性的社会现象,破坏性领导(destructive leadership)始终存在于各类组织中。近年来,西方管理学界逐渐开始
关中地区是华夏文明发源地之一,传统的农耕地区,村镇聚集区,农业人口密集区,生态环境脆弱。在城乡一体化的发展格局中,农村面临的问题首当其冲。由于规划界长期形成的“城市
在印刷、包装领域中,纸张作为一种重要的信息载体而被广泛使用,而白度作为纸张光学物理性质的主要参数之一,是衡量纸及纸板性能的一个重要指标,因此,白度值的准确测量对于提
目前,在工业生产上,Si太阳电池正在经历从第一代晶体硅电池向第二代薄膜电池的转变。在实验室中,对以薄膜叠层电池为代表的第三代高效太阳电池的研究与开发已成为人们研究的
在当今瞬息万变的信息化时代,随着用户日益彰显的个性化需求,企业面临着从未有过的巨大挑战,虽然企业流程再造是自我革新,提高竞争力的途径,但普遍存在的高失败率却是不争的
历史经验告诉我们,生态兴则文明兴,环境适宜的长江、黄河流域孕育了辉煌的中华文明,而生态环境较好的“两河”流域则塑造了古巴比伦文明。反之,生态衰则文明衰。丝绸之路上的
加工表面微观形貌三维检测与评定是近年来表面学研究领域所关注的热点问题。本文针对目前表面三维轮廓检测方法普遍存在设备复杂、成本高的现状,提出一种基于显微视觉图像三