基于机器学习的中文新闻短文本分类研究

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:lixiner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展,人们已经进入网络大数据时代,随之而来的是电子文本信息数量的大幅增加。对这些文本数据进行正确的分类,能够方便用户迅速、高效和准确的从大量文本数据中提取到有价值的信息。本文以中文新闻短文本分类研究为例,完成对中文短文本分类的研究工作。短文本相比较于长文本,前者的词汇数量较少,特征较为稀疏,因此无法按照常规的文本分类方法对其进行分类。为了增加短文本的有效特征数量,提高文本分类的准确度,本文提出一种基于隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型和Text Rank算法的短文本特征扩展方法。本文的主要工作和研究成果包括:(1)对朴素贝叶斯算法、支持向量机算法(Support Vector Model,SVM)、K最邻近算法(K-Nearest Neighbor,KNN)、决策树算法以及逻辑回归算法进行了研究,详细分析了各个算法的优点和缺点。同时使用文本分类技术对中文文本进行了数据清洗、分词和特征处理等数据预处理工作。使用上述五种机器学习算法分别进行了中文新闻短文本分类实验,并将分类结果进行了对比分析。(2)针对中文短文本词汇较少,特征较为稀疏的问题,提出一种基于LDA模型和Text Rank算法的短文本特征扩展方法。首先利用LDA模型得到每个文本的隐藏主题特征,再利用Text Rank算法获取文本的关键词,最后将与文本隐藏主题特征相对应的关键词当作特征扩展词扩充到短文本中,以增加短文本中特征的数量,为后续的文本分类增加更多有效信息。(3)以中文新闻短文本分类为例进行中文短文本分类的相关研究,从特征词的提取与扩展等方面对文本分类方法进行了改进。使用朴素贝叶斯算法、SVM算法、KNN算法、决策树算法以及逻辑回归算法对本文所提出的改进方法进行了验证实验。同时为进一步验证该方法的有效性,本文又使用Word2Vec模型在THUCNews数据集上进行了验证实验。实验结果表明本文所提出的改进方法能够提高文本分类的准确率,有效提升了文本分类的效果。通过特征扩展方法对短文本进行特征扩展,能够增加文本的特征数量,有效缓解短文本特征稀疏的问题,对实现短文本的正确分类有着重要的研究意义。
其他文献
全面推行河长制,是国家从推进生态文明建设战略高度做出的重大决策部署。2022年两会期间再次对河长制建设提出了新要求,即每条河流每个湖泊都有人管有人护。河湖的管护工作关键是得有人来管护,并且对管护水平有一定的要求,如何提高各级河长管护水平成了新的问题。以此为基础,本文对河长智能学习平台进行了研究。主要工作包括两个部分:(1)智能学习平台的搭建。河长智能学习平台为解决跨平台问题采用了B/S结构。搭建S
学位
骨质疏松症是由于一些外部原因引起的全身性骨病,严重时甚至可引发骨癌,采用骨密度测量方法测量人体的骨矿含量,可根据骨密度值来判断人体的骨质疏松程度,从而提前采取预防措施预防骨折的发生。随着信息技术的发展,计算机视觉结合临床医学诊断减轻了医务人员的负担,提高了工作效率。定量CT法(Quantitative Computed Tomography,QCT)就是结合图像分割方法来进行医学诊断的,采用专门的
学位
调水工程线路长、沿线地质环境复杂,工程安全运行受到多种险情威胁。采用合理方式开展应急演练提高应急响应能力,对保障调水工程正常运行至关重要。增强现实技术可以将虚拟灾变物体和应急演练过程与真实环境融合,强化人们对险情的认知,提高应急演练效率。以南水北调中线工程高填方渠道管涌险情为例,对险情特征和应急演练过程进行调研分析,明确管涌险情应急演练功能需求,利用增强现实技术构建应急演练情景,主要工作如下:(1
学位
人体动作识别技术使得计算机能够感知并识别用户的动作,在人机交互、计算机视觉、物联网技术、认知科学等领域有着非常重要的意义。近年来,随着深度学习、5G技术的飞速发展,Wi Fi环境下基于深度学习的人体动作识别领域取得了突破性进展。但是Wi Fi环境下基于生成对抗网络的人体动作识别技术还存在一定的局限性,进而影响了模型的识别率。本文基于生成对抗网络技术开展人体动作识别的研究工作,从模型优化方面提高模型
学位
黄河是中华民族的母亲河,黄河流域水文变迁给人类文明发展带来了巨大的影响。随着年份的增加,关于黄河的时空数据日益增多,如气象数据、地理数据等,黄河流域产生的数据大小和价值是不可估量的。如何更加直观、便捷地管理与展现黄河时空数据带来了挑战,同时也带来了机遇。为了解决黄河流域时空大数据管理不易、可视化不直观等问题,本文采用大数据处理技术和三维数据可视化的技术进行了融合研究,探索了如何高效、准确地对黄河时
学位
随着互联网的快速发展,用户偏好研究日渐火热,出现了大量研究成果。其中,基于社会调查领域,学者们提出了有界置信模型(Bounded Confidence Model,BCM)及相关变种;基于个性化推荐领域,提出了诸如协同过滤等诸多算法。但从研究现状来看:有界置信模型认为个体会完全接受与之交流个体的偏好以及每个个体都会信任交流对象表达的偏好,有界置信模型的这种设定与现实不符,存在明显不足;基于个性化推
学位
在气候变化及人类活动的影响下,干旱灾害严重威胁着人民群众的生命和财产安全。针对当前气象干旱预测方法中存在的预测精度低、可信度差等问题,构建高精度的预测模型将为区域水资源的合理配置以及防旱抗旱提供理论支撑。本文以河南省三座城市为研究对象,从1951-2020年的河南省逐月气象数据入手,依据两种气象干旱指数,借助相关统计方法、模态分解算法、群体智能优化算法、时间序列预测算法等工具,分析气象干旱规律,以
学位
本文通过研究敦煌传统壁画中的色彩元素的分析研究,以敦煌壁画中保存的大量古代的绘画色彩语言为视角,结合油画创作实践,对中西方绘画色彩结合等问题进行探索,并思考敦煌的古老壁画的色彩语言在我们油画创作中的运用形式。本文主要从四个部分来论述,第一部分壁画情况概述,从敦煌壁画的由来与发展进行铺垫,对各个朝代的色彩风格进以考究,落实在具体的色彩研究,以敦煌壁画古代色彩语言为鉴,审视当下。第二部分通过十六国至宋
学位
东方明珠游船码头候船厅项目因地处小陆家嘴滨江前景环境的敏感场地,环境关联与空间感知中显与隐、轻与重的关系成为核心问题。设计以多方案比较推动选址落位、任务规模、空间形式、结构体系、构造方式、材料色彩等多项话题的共识与聚焦,最终达到了抽象的、非日常的视觉消隐效果。
期刊
2019年,习近平总书记发出“让黄河成为造福人民的幸福河”的伟大号召。幸福河是新时代江河治理的新要求、新高度,幸福河的概念与内涵需要不断地挖掘与延伸。本文在系统归纳和总结与幸福河相关研究成果的基础上,借助和谐论理论方法,以和谐论五要素剖析了幸福河建设问题中的和谐参与者、和谐目标、和谐规则、和谐因素、和谐行为,将幸福河建设过程中的问题转化为和谐问题,对幸福河概念及内涵进一步释义。基于对幸福河内涵的进
学位