基于LDA模型的文本分类研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:kinggaoblog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。
其他文献
城市商业综合体是城市形态发展到一定程度的产物,商业建筑综合体以其多元化、综合化的空间形式改变了传统商业建筑的设计方法。结合实践案例,文章探讨在快速城市化发展背景下
全面二孩政策本质虽然仍是国家公权力对公民生育权的限制,但从限制力度上来看是对生育权的进一步放开。全面二孩政策是基于我国目前的国情而提出,具有一定的现实意义:该政策能
<正> 0 引言水文把采用各种成分的名称(如主语、谓语、定语等)来分析句子的方法都叫做“成分分析法”。在语法教学中,有各种各样的成分分析法,但大体可以归纳为两种。一种是
随着环境问题频发,人们的环保意识逐步提高,近两年国内多个城市频繁出现雾霾天气,更加重了人们对于PM2.5的关注,作为PM2.5的重要贡献源之一,柴油车的尾气排放问题越发受到重
目的:1.以奥马哈系统为框架,构建留置T管出院患者延续护理方案;2.评价留置T管出院患者延续护理方案的应用效果。方法:1.通过文献回顾,以奥马哈系统为框架,与胆道疾病患者置管
债权人撤销权的行使,须有债务人的行为、且债务人的行为于债权发生之后有效成立并继续存在、债务人的行为必须有害于债权人的债权、债务人与受益人(或转得人)主观上具有恶意
作者阐述了安全监理产生与依据和电力行业安全生产特点,并结合实践经验细述了电力建设工程安全监理的要点,供同仁交流。
海德格尔从生存本体论出发,追问了现代科学技术的本质,指出了现代科学技术异化的形而上学根源,认为科学研究的企业化、商业化和技术解蔽的座架化使科学研究及现代技术走向了
地形在一定程度上影响着土地利用变化,对土地利用空间格局的形成具有重要影响。以北京市平谷区为例,借助DEM提取高程、坡度信息,采用地形位指数、分布指数、土地利用程度综合