结合半监督学习和LDA模型的文本分类方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:logan_lxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对样本集中具有较少标记样本情况下的文本分类问题,提出一种结合半监督学习(SSL)和隐含狄利克雷分配(LDA)主题模型的标记样本扩展方法(SSL-LDA),并整合朴素贝叶斯(NB)分类器构建一种文本分类方法。使用LDA主题模型生成主题分布,以表示所有样本;根据训练集中已标记样本,通过一种简化粒子群优化(SPSO)算法获得SSL-LDA自训练模型的最优参数;基于SSL-LDA自训练模型对训练集中一些未标记样本进行标记,扩展训练集;基于扩展后的训练集,训练NB文本分类器。在3个数据集上的实验结果表明,该方法能
其他文献
随着冷原子、冷分子物理的发展,极大的丰富了光与物质相互作用量子特性的研究内容。光作为量子信息的载体,原子作为量子信息存储的介质,光与原子之间量子态的传递(量子接口)
<正>审美不仅可以激活儿童的"感觉脑",唤醒儿童的"情绪脑",还能够促进儿童"全脑"功能的开发。儿童期是一个人脑发展的关键期,这个时期的大脑比成人大脑具有更大可塑性。如果
政治参与是国家政治生活的一个重要方面,也是当代民主政治的重要内容,反映了公民在政治系统中的地位和作用。公民政治参与的扩大成为政治现代化的一个重要标志。农村是我国社
自90年代太阳能路灯被研发成功,一直备受环保界人士的关注。近年来,太阳能路灯已经开始在全国各地普及,给人们的生活带来的无限的便利,也为路灯行业指明了一条利国利民,切实
县级政府服务能力作为一种综合性能力,受制于多种因素,它的提升和发展并非只依靠某方面能力的完善就能实现。本文运用文献检索法,理论与实际结合法,比较分析方法与系统分析方
在电动汽车高速发展的背景下,国家电网公司打造了全球规模最大的电动汽车服务平台,区块链这项新兴技术也许可以应用于电动汽车领域,构建共享共赢的电动汽车新业态。本文在分析区
为开发保健酒,以糯米和金樱子为原料,按一定比例混合发酵制得保健型金樱子糯米酒;以总糖、总酸和酒精度为主要考察指标通过单因素和正交试验,确定了保健型金樱子糯米酒最佳工
LTE是3GPP组织近几年启动的面向新一代通信系统的大规模新技术研发项目,以正交频分复用、单载波频域均衡等为核心技术。信道估计在宽带通信系统中具有重要的实际意义,专门针
<正> 这个病案是根据清初名医张石顽治汪五符案整理成病案讨论形式,并作了一些分析,用作研讨。(原案见《张氏医通。诸伤门》) 病者汪××,男性,中年人,儿科医生,起病原因:夏
本文与导演张杨探讨了《冈仁波齐》《皮绳上的魂》两部影片的创作问题,从"寻找自我与精神救赎"、"创作突破与两极探索"、"灵魂诘问与朝圣之旅"三个方面,梳理了张杨个人对于西