基于LDA和SVM的中文文本分类研究

来源 :现代计算机(专业版) | 被引量 : 0次 | 上传用户：xsw2233

【摘要】

：

针对中文文本分类中特征提取的语义缺失和低频词问题,提出一种基于LDA和SVM的中文文本分类算法,首先将LDA与卡方统计特征提取算法结合,根据计算结果得到Top k个指定数目的词

【作者】

：

宋钰婷徐德华

【机构】

：

同济大学经济与管理学院

【出处】

：

现代计算机(专业版)

【发表日期】

：

2016年2期

【关键词】

：

LDA 卡方统计文本分类 SVM

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对中文文本分类中特征提取的语义缺失和低频词问题,提出一种基于LDA和SVM的中文文本分类算法,首先将LDA与卡方统计特征提取算法结合,根据计算结果得到Top k个指定数目的词项作为特征词,使用SVM进行分类,并与互信息、信息增益进行对比,结果分析显示与主题模型相结合的卡方统计特征提取方法有更高的分类精度。

其他文献

关于地市级档案馆馆藏永久档案分级管理的思考

<正>1999年5月5日,国务院批准修订、同年6月7日,国家档案局令第5号重新发布的《中华人民共和国档案法实施办法》第三条规定:"各级国家档案馆馆藏的永久保管档案分一、二、三

期刊

分级鉴定国家和社会档案馆保存价值分级管理

以形补形可行吗?

老百姓常说"吃啥补啥",脑力消耗过多吃点动物脑子补补,贫血了多吃点红色的食物,不少人认为这就是中医食疗的一大特色,"以形补形"嘛!然而这种观点却并非绝对,不仅经常被西方现

期刊

以脏补脏随息居饮食谱中医食疗古医籍《调疾饮食辩》现代医学王士雄现代营养学维生素胡萝卜

探讨如何提升档案馆微博的吸引力

本文针对现阶段我国档案馆微博应用过程中存在的实际问题,从六方面探讨了如何提升档案馆微博的吸引力:1.提高档案馆微博的信任度;2.确保档案馆微博的天然"用户粉丝群";3.挖掘

期刊

档案馆微博吸引力探讨

制药用水的现状与发展方向

期刊

制药用水USP《中国药典》纯化水离子交换树脂现状与发展

新文明观:面对新全球化的价值选择

文明是多彩、平等、包容的，文明的内生力在于与时俱进、交流互鉴。以科学的态度认识经济全球化，以积极的姿态应对经济全球化，是习近平新文明观的重要价值指向。鲜明提出构建人类

期刊

习近平新文明观新全球化人类命运共同体

关于档案行政管理存在条块并存的特征问题的几点思考——兼与陈宏霞同志商榷

<正>陈宏霞同志在《档案管理》2012年第一期上发表的《也谈档案行政管理的特征》(以下简称"《陈文》")一文中认为"管理模式的条块并存性也是档案行政管理的重要特征之一"。[1

期刊

档案行政管理垂直管理区域化属地管理档案机构科技档案工作几点思考

浅议班主任管理工作对护生科研能力的提升

目前国内许多高等院校在不断地改革护理本科生科研能力的培养模式，以期提高护生的科研意识与能力。但班主任的管理工作对护生科研能力的提升作用目前仍未见相关报道。因此，笔者

期刊

班主任管理工作护生科研意识科研能力

黑龙江省干线公路典型平面交叉口安全改造方案及评价研究

平面交叉口是传递路段交通流的节点和枢纽,是公路网的关键部分,但国省道干线公路平面交叉口成因复杂,且普遍存在数量较多,技术指标低等情况。目前,黑龙江省公路特别是三级及

学位

干线公路交叉口改造安全评价交通冲突技术交通仿真

会阴侧切伤口拆线方法的改进

我科在常规会阴侧切伤口拆线时采用传统拆线方法，即常规消毒伤口以无菌止血钳夹紧并向外牵拉线结后，以无菌拆线剪剪断线结处一根缝合线，随后快速牵拉出缝合线。经观察此种拆线方

期刊

会阴侧切伤口拆线法

H3K27的三甲基化蛋白在初治弥漫大B细胞淋巴瘤的表达及对预后的影响

目的：探讨H3K27me3在弥漫大B细胞淋巴瘤（DLBCL）中的表达及对预后的影响。方法：收集福建省肿瘤医院102例初治DLBCL石蜡标本,利用TMA技术制成组织芯片,免疫组织化学方法检测H3K27me

期刊

弥漫大B细胞淋巴瘤组织芯片H3K27me3

基于LDA和SVM的中文文本分类研究

与本文相关的学术论文