基于LDA和SVM的中文文本分类研究

来源 :现代计算机(专业版) | 被引量 : 0次 | 上传用户:xsw2233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对中文文本分类中特征提取的语义缺失和低频词问题,提出一种基于LDA和SVM的中文文本分类算法,首先将LDA与卡方统计特征提取算法结合,根据计算结果得到Top k个指定数目的词项作为特征词,使用SVM进行分类,并与互信息、信息增益进行对比,结果分析显示与主题模型相结合的卡方统计特征提取方法有更高的分类精度。
其他文献
<正>1999年5月5日,国务院批准修订、同年6月7日,国家档案局令第5号重新发布的《中华人民共和国档案法实施办法》第三条规定:"各级国家档案馆馆藏的永久保管档案分一、二、三
老百姓常说"吃啥补啥",脑力消耗过多吃点动物脑子补补,贫血了多吃点红色的食物,不少人认为这就是中医食疗的一大特色,"以形补形"嘛!然而这种观点却并非绝对,不仅经常被西方现
本文针对现阶段我国档案馆微博应用过程中存在的实际问题,从六方面探讨了如何提升档案馆微博的吸引力:1.提高档案馆微博的信任度;2.确保档案馆微博的天然"用户粉丝群";3.挖掘
文明是多彩、平等、包容的,文明的内生力在于与时俱进、交流互鉴。以科学的态度认识经济全球化,以积极的姿态应对经济全球化,是习近平新文明观的重要价值指向。鲜明提出构建人类
<正>陈宏霞同志在《档案管理》2012年第一期上发表的《也谈档案行政管理的特征》(以下简称"《陈文》")一文中认为"管理模式的条块并存性也是档案行政管理的重要特征之一"。[1
目前国内许多高等院校在不断地改革护理本科生科研能力的培养模式,以期提高护生的科研意识与能力。但班主任的管理工作对护生科研能力的提升作用目前仍未见相关报道。因此,笔者
平面交叉口是传递路段交通流的节点和枢纽,是公路网的关键部分,但国省道干线公路平面交叉口成因复杂,且普遍存在数量较多,技术指标低等情况。目前,黑龙江省公路特别是三级及
我科在常规会阴侧切伤口拆线时采用传统拆线方法,即常规消毒伤口以无菌止血钳夹紧并向外牵拉线结后,以无菌拆线剪剪断线结处一根缝合线,随后快速牵拉出缝合线。经观察此种拆线方
目的:探讨H3K27me3在弥漫大B细胞淋巴瘤(DLBCL)中的表达及对预后的影响。方法:收集福建省肿瘤医院102例初治DLBCL石蜡标本,利用TMA技术制成组织芯片,免疫组织化学方法检测H3K27me