基于LDA主题模型的短文本分类

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:zymmhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方
其他文献
传统基路径覆盖测试用例生成方法通过程序图求出圈复杂度,然后再得出程序的一组基路径,最后分别针对基路径组中的每条路径求出相应的测试用例,不仅繁琐,而且忽视了代码的语义
甲贪官属下有一副科长想提升正科,提来烟酒。甲说,提这些东西多不方便,下不为例哟。第二次,属下送来2000元。
系统论原理告诉我们:万物皆成系统,系统均有结构,结构决定功能,最佳结构的群体才能产生最大的整体功能.
粉煤灰具有自重轻、压缩性小以及固结快等特点,采用粉煤灰进行路基填筑施工可以有效的解决粉煤灰占地和环境污染的问题,同时还可以有效地确保路基的稳定性,因此在高速公路施
为提高聚类算法在对精度要求不高的大型数据集上的运行效率,通过比较各类聚类算法。提出了部分优先聚类算法,给出了部分优先聚类算法的相对优势和性能比较表;分析聚类成员产生方
马克思主义社会哲学研究视域,就是基于历史唯物主义的立场和观点,采用逻辑的方法,着眼于对整个社会结构体系从本体论和认识论层面进行研究。五大发展理念是一个有机整体,各个
目的研究骨髓增殖性肿瘤(MPN)患者外周血单个核细胞JAK2-V617F基因突变与血栓事件发生的相关性。方法对391例MPN患者进行血栓事件调查,同时采用实时荧光定量聚合酶链反应(QRT
为了解决铁路运输管理中车辆分布的可视化问题,提出了一个分布式铁路车辆分布组件的概念,详细地给出了这个组件的基本结构、分析、设计和实现。应用该组件可以为铁路运输管理系
为提高新型电源装置的稳定性、实时性和人机交互能力,通过对电源监控需求进行分析,提出了一种三层集散监控结构,设计并实现了基于ARM的电源嵌入式监控系统。基于Linux和Qt开发平
为了检测特定配置条件下的软件漏洞,提出了一种配置模糊测试方法。它通过改变被测程序的配置检测一些只在特定运行时特定配置下才能表现出来的软件漏洞。应用程序运行在部署环