基于机器学习的自动文本分类方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:mbqgg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本文档的分类一直被认为是NLP和ML领域中的重要研究主题。数据库中原有数据会不断积累,中文文档的数量每天都在急剧增加。而现有中文文本分类技术大多缺乏比较全面的特征选取方法,或者说算法中的分类指标过于片面。因此,对此类中文文档分类算法进行方法改进是提高中文文本分类技术实用性和有效性的一种解决办法。本文以文本分类为依托,重点研究文本分类系统中的关键环节。具体从特征降维以及分类器算法环节等方面入手展开了研究:首先在特征降维环节中,根据卡方(CHI)统计算法中存在词项的出现频率与类别互相关问题以及互信息(MI)算法存在没有考虑到词项在文本中的出现频率,使得倾向于选择一些低频特征词的问题,通过同时引入了词项的词频因子与调节因子分别提出改进,形成了一种理论效果优于卡方统计和互信息的新算法即CHMI算法;目前TF-IDF权值计算方法常用于特征降维环节并对文本内容进行特征词选取。针对TF-IDF算法在计算中忽略了特征词的类间分布关系这一缺陷,本文提出了采用卡方统计进行算法结合并形成一种TF-CHI特征选取算法;XGBoost作为一种机器学习算法可用于解决多分类问题,使用XGBoost算法也可以得到更精确的分类结果。本文针对XGBoost算法在中文文本分类技术应用中存在的方法效率较低或者处理高维度特征词比较困难等问题,提出在分类流程中首先利用TF-IDF算法进行特征词的预先筛选。最后形成一种基于XGBoost算法并与TF-IDF算法相结合的TF-XGB改进的特征选取方法。最后在分类算法环节,基于支持向量机的算法结果常常出现学习能力与泛化能力之间的强弱矛盾。本文首先将核函数按照全局核函数以及局部核函数的角度进行分类研究,根据全局核函数普遍存在的一种弱学习能力而局部核函数普遍存在一种弱泛化能力的问题,通过实验验证提出了一种基于全局核和局部核的混合核函数,具体是一种采用线性核与高斯核进行线性组合的混合核函数。
其他文献
税务稽查是税收征管工作不可或缺的一部分。税务稽查是由税务稽查局对纳税人、扣缴义务人和其他涉税当事人税法遵从度进行的一种监督检查,被喻为悬在“纳税人头上的一把利剑”。税务稽查的基本任务是依法查处各类税收违法案件,维护公平的税收秩序,提高纳税遵从度。随着税收征管体制改革的不断推进,国家税务总局大连市税务局稽查局于2018年6月15日正式挂牌成立,由原大连市国家税务局稽查局、大连市地方税务局稽查局整合而
傅里叶变换在科学研究与工程技术中都是一个十分重要的工具,是光学信息处理的基础。分数傅里叶变换作为经典傅里叶变换的推广,已经为光学信息处理带来了极大的方便,而且将傅
2016年,三位科学家因为在拓扑相变领域做出的重大贡献获得了诺贝尔物理学奖,这进一步引起了人们对拓扑材料研究的兴趣,其中拓扑金属及半金属由于其丰富的拓扑相更是成为了研
To prepare and purify the main constituent of Arctii Fructus,arctiin.Methods Extracted with systematic solvents,separated with macroporous resin and purified by
近年来,随着互联网技术的快速发展与广泛应用,电商网站、微博、新闻网站等逐渐成为人们生活中不可缺少的一部分,这些网站通常有着海量的在线用户评论,这些由用户撰写的评论蕴含着巨大的价值,已经成为消费者和相关企业的重要信息来源。由于在线评论具有信息量大、非结构化的特点,文本挖掘技术被用于在线评论的分析。情感分析(Sentiment Analysis)是一种分析在线评论情感观点的文本挖掘方法,主要进行两个任
维基百科是人类大型的知识库,是现代人获取信息的在线资源,但一度受到质量水平的质疑,日益增加的条目,日益频繁的编辑,人工评审将不符合实际。如果没有得到适当的监控和修改,
大学生所面对的各方面压力在不断增多。引导大学生在面对压力时选择积极的应对方式,顺利完成大学学业就变得十分必要。本研究从压力知觉和应对方式的关系出发,引入积极幻想和生命意义两个积极心理学变量,探索大学生压力知觉对应对方式预测的可能途径,即探索积极幻想和生命意义在大学生压力知觉与应对方式间的中介作用及链式中介作用。本研究选择问卷调查方法,以380名大学生为被试,用纸质问卷与问卷星施测《压力知觉量表》、
中国在改革开放后实行社会主义市场经济体制,伴随着科学技术的日益进步、现代化传媒手段的日益发展、文化市场的日益开放,大众文化已渗透到人们生活的方方面面,大众文化已经成为满足人民群众日益增长的美好生活需要的重要途径。但中国的大众文化在蓬勃兴旺的同时,也不可避免的存在诸多问题。文化建设,迁染民志,关乎兴衰,在当下环境,中国文化建设应走向何方?我们应当有更深层次的叩问和追寻,中国特色社会主义文化建设的发展
《芳华》采用第一人称主人公叙述中的回顾性视角,展开对往事的回忆。小说叙事分为三个层次:一是作者的叙述行为,二是故事讲述者——作家萧穗子的话语层,即她的回忆,三是故事
扶贫攻坚工作是近年来我国重点任务之一,是“十三五”规划中实现全面建成小康社会的重要途径。党中央提出的各项精准扶贫政策积极有序落实到各基层单位,到2020年全国各地脱贫工作取得有效进展。随着扶贫攻坚战逐步接近尾声,深度贫困地区脱贫摘帽工作、其他已脱贫地区扶贫成果的保留与防止返贫问题成为了当下扶贫工作的主要难题。短期内,我国发展不平衡、收入分配差距大的问题依然突出,绝对贫困的消灭并不意味着深层贫困问题