基于LDA与SVM的文本分类研究

被引量 : 0次 | 上传用户:tastgaoyan1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是信息检索与数据挖掘领域的研究热点,近年来得到了广泛的关注和快速的发展,它是机器学习和自然语言处理的关键技术之一。近几年,人们开始将机器学习的方法应用到文本自动分类领域,它在分类效果和灵活性上都比传统的文本分类模式有所发展,成为相关领域研究和应用的范例。特征选择和分类算法是文本分类中两项关键的技术。在文本分类中,特征空间维数过高引起“维数灾难”,传统特征选择方法在处理文本数据时,特征降维效果不佳,且易忽视词间语义关系,直接影响分类性能。实际文本数据具有类别和样本数目多、噪音多、各类别样本数目不均衡等特点,传统分类算法在分类精度和速度上不能兼顾。本文对文本分类及其相关技术进行研究,从降低文本数据的维数,提高分类性能出发,提出了相应的解决或改进的方法。本文的研究工作主要包括以下几个方面:(1)在文本预处理阶段加入词频和文档频度过滤,在经典的LDA特征选择算法基础上融入类别信息,发掘不同类别文档内部潜在主题的差异性,采取双重特征选择方法以期选择对分类最有意义的特征词。(2)针对大规模文本数据的特点,在各类别训练数据集上分别用LDA模型进行主题建模,利用Gibbs抽样参数推理,间接计算模型参数,把每个文本表示为固定隐含主题集上的概率分布,从而获得文本集的隐含主题-文本矩阵,简化了文本数据,取得了显著降维效果,缩短了分类算法的训练时间。(3)在上述工作的基础上应用SVM分类算法,将LDA良好的文本特征表示性能和SVM强大的分类能力结合起来。在中英文语料库上实验表明,与其它特征选择方法和分类算法结合相比,本文的方法特征降维效果明显,F1值、Macro-F1、Micro-F1和精确率等分类性能指标都有良好的改善。
其他文献
目的观察分析关于乳腺癌手术导致复发的不同临床因素,以及分析患者再次接受治疗的临床方法。方法回顾性分析于2010年11月-2014年1月期间因乳腺癌手术后出现复发而入院的患者6
在企业的发展中,其绩效考核已经成为了最为主要的方式,通过对绩效考核的应用,可有效调动员工的积极性,也可以实现企业人力资源管理的创新发展。在本文中则主要分析了当前企业
在TPACK框架下以《微格教学》为案例,运用行动研究法描述如何将信息技术与教学融合,最终发展英语师范生的信息化教学能力。整合技术的学科教学方式优势在于提高师范生学习兴
对于垂体性侏儒症 ,目前临床上使用的体外重组人生长激素替代治疗疗效有一定限制。近年来基因治疗垂体性侏儒症的研究已开始并取得了一定成效。本文从基因治疗的体外试验、体
仓库是企业存贮物料的场所,其所体现的仓储职能是企业物流系统职能的重要组成部分。仓库往往占据着企业大量的固定资金,是企业生产成本的源头之一,仓库管理日益受到了人们的
目的:通过对下肢动脉硬化闭塞症(热毒证)患者给以四妙勇安汤内服联合复方黄柏液溃疡处外敷的疗法的临床研究,观察患者溃疡的愈合情况(包括溃疡的面积、溃疡深度、溃疡面肉芽
随着全球"汉语热"的升温,对外汉语教学越来越受到人们的关注。对外汉语教学不仅仅是要教会外国人说汉语,同时它还承载着向全世界展示和传播中华文化的历史重任。在跨文化的视
随着我国医疗体制改革的深入,医药物流市场的发展潜力巨大,医药物流产业成为一个崭新的行业。文章立足于医药物流整体发展状况和特点,通过分析医药物流行业营运模式找到目前
2010年,我国大学毕业生总人数为652万人,我区9.4人万,赤峰学院毕业生2194人.赤峰学院招生就业处每年都组织盟市级大型洽谈会1-2次,小型洽谈会几十次.众多的大学生在面临求职
限制政府权力、保障个人权利一直以来都是政治领域里面临的最基本问题之一。美国宪法作为世界上第一部成文宪法,是对限权思想的成功实践,它所确立的限权政治体制也成为了世界上