基于卡方统计量的文本分类方法改进研究

来源 :西安财经大学 | 被引量 : 0次 | 上传用户:zenghui_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的广泛使用以及互联网的迅速普及与发展,人们可获取的信息量与信息种类也随之增多,并且大多以文本形式存在,如何快速、准确获取自己所需信息则成为目前研究的热点问题之一。本文的工作重点从文本分类的特征选择出发,对文本分类技术进行更加深入的分析与探讨。首先,基于文本分类的整个过程,对其基本理论进行简介,主要从六个方面进行说明,包括有数据采集、文本的预处理、模型表示、特征选择、特征加权以及分类器评估等。其次,以文本分类中的特征选择为重点研究对象,对文本分类中常用的特征选择方法进行介绍,并且分析其优缺点。本文使用的特征选择方法为卡方统计,通过对卡方统计的研究发现该方法的不足之处,本文从两个方面进行改进。第一种是基于概率分布距离对卡方统计进行改进,针对卡方统计忽略包含特征项的文本在不同类别的权重问题,引入JS散度。第二种是对基于特征分布对卡方统计进行改进,由于第一种改进方法的重心在于类别内包含特征项的文本在不同类别间的频数与比例,并未考虑特征分布问题,因此,第二种方法针对卡方统计与JS散度所忽略的问题进行改进,具体为:(1)特征词在类别间出现次数的统计,本文引入了词频修正系数;(2)特征在类别内部分布状况,引入了文本频率;(3)类间信息利用不充分的问题,引入了类间频率。并且将第一种改进方法与第二种改进方法综合使用,进行实验。最后,为验证本文提出的卡方统计改进方法的可行性与有效性,使用李陆荣教授整理的复旦大学中文语料集作为数据集,应用贝叶斯分类器进行实验,采用准确率、召回率与F值等指标进行评估与对比。实验结果表明,使用本文改进后的卡方统计算法的降维效果优于传统的卡方统计算法,且文本分类的精度有所提高。
其他文献
2020年我国计划全面进入小康社会,同时结束精准扶贫工作。一直以来,我国精准扶贫是建立在满足“两不愁三保障”的基础上来的,即让广大贫困人口不愁吃、不愁穿,保障贫困人口的义务教育、基本医疗和住房安全。随着精准扶贫工作的结束我国的绝对贫困现状可以消除,但是相对贫困无法彻底根除。而且无论国内学者还是国外学者对贫困的识别还是停留在划定一个临界值后来判断是否贫困,却不能判断其贫困的强弱程度。并且一直以来,无
学位
随着经济的高速发展,我国许多行业进入了转型期。前期的经济高速发展也带来了许多问题,例如生态环境破坏、医疗保障和教育资源的不平衡等问题日益突出。因此研究如何在发展经济的同时,各行业协调和可持续发展成为了十分迫切的问题。物流业作为新兴行业与传统行业制造业,两者的协调发展对研究整体经济协调发展十分关键,新兴行业与传统行业的耦合协调发展对促使新兴行业快速发展起着巨大的作用,也是传统行业转型的动力。本文以陕
学位
人工冻结法以其绿色无污染的特点在地铁联络通道的施工中得到了广泛的应用。在冻结法施工过程中,自然因素和人为施工因素对温度场发展的影响不同,处理不当会导致冻结壁无法交圈或者过冻;冻结后的联络通道在进行开挖时容易引起较大的地表位移,从而对周边管线以及地表建筑物产生影响。基于上述问题,本文以郑州机场至许昌市域郑州段某区间联络通道冻结法工程为依托,采用室内试验、理论推导、数值模拟以及现场实测相结合的方法,系
学位
随着人类社会的不断进步,经济增长已不再是社会进步的唯一目标,提高居民生活质量越来越被整个社会所重视。我国近年来经济快速发展,居民生活质量有所改善,但两者的进步并非并驾齐驱,因此,研究经济发展与居民生活质量的关系对实现两者共赢,促进社会发展有着显著意义。在此背景下,本文梳理相关文献资料,并结合陕西省实际情况,构建经济发展与居民生活质量指标体系,运用熵值法对陕西省经济发展与居民生活质量水平从纵向、横向
学位
分形学作为非线性学科的一个重要分支,自提出至今已经在多个领域得到了蓬勃发展,尤其是在地学领域,为许多难以用传统几何形式表达的自然实体特征研究提供了可靠理论基础和有效分析方法。地貌与水系作为地球表层系统中重要的基础自然地理要素,影响甚至决定着其他要素的特征,并直接影响着人类活动。流域地貌与水系的形态、空间组合等常具有较强的多样性与复杂性,常规方法难以定量表达其特征,而多重分形定义为一系列单分形的集合
学位
水凝胶具有良好的机械柔韧性、导电性和生物相容性,在柔性电子领域得到了广泛的关注。然而目前的水凝胶材料依然存在机械强度差、低温下易冻结和使用过程中失水严重等问题,严重制约了其在柔性电子领域中的应用。开发具有高机械性能、良好导电性和宽温度使用范围的多功能水凝胶对于发展水凝胶基柔性电子器件具有重要的研究意义。此外,集成的水凝胶基柔性电子设备不可避免地会遭受外界粗暴恶劣的机械应力或形变,在动态变形过程中保
学位
电机作为一种能量转换设备,在人们日常生活和工业生产中都有着广泛应用。在工业生产中,电机由于长时间高速运转、高负荷的工作状态,加之可能缺乏足够的日常维护,给电机的运行留下了安全隐患。电机一旦出现故障,不仅会影响设备的平稳运转,使企业造成一定的损失,甚至可能威胁现场工作人员的人身安全。因此,为保证电机运行的平稳性、高效性及可靠性,对其进行远程监测和故障诊断十分重要。本文以异步电机为对象,结合深度学习理
学位
随着城市化的不断发展,地铁交通越来越受到青睐。在地铁建设中,盾构法修建隧道具有对周围环境影响小、自动化高、优质高效、安全环保等优点。盾构刀盘是实现盾构机掘进的关键部件,由于我国岩土结构复杂多变,掘进过程中刀盘与土体不相适应的问题多有出现。其中钙质结核是一种力学特性极不稳定的地层,也是事故多发地层,因此基于钙质结核地层开展对盾构刀盘的掘进力学特性研究具有重大的现实意义。本文以郑州地铁10号线某区间盾
学位
斜拉桥具有跨度大、自重轻、施工相对简单等优势,已经成为大跨度桥梁的主要桥型之一。斜拉索是斜拉桥的主要承重构件,保证其使用安全是整座桥梁能够正常运营的基础。为保证斜拉桥正常使用,对斜拉索结构的使用性能进行研究具有重要的意义。本文在对斜拉索结构病害进行调查并查阅了大量文献的基础上,对斜拉索结构的使用性能进行了研究,主要成果如下:(1)针对斜拉索的构造特点分析了斜拉索损伤的原因和机理。外护套破损导致索体
学位
聚合物混凝土材料是一种利用水泥混凝土制造方法,通过更换部分或全部水泥,利用聚合物与粗细骨料混合拌制而成的新型混凝土材料,具有施工后硬化快、耐腐蚀、对环境无污染等优点。因此利用聚合物混凝土这些特点,将其应用于混凝土破损区域来提高结构承载力,延长其服役寿命,应用范围广阔。但大多数学者对聚合物混凝土材料基本性能进行研究,对其与水泥混凝土粘结共同工作性能等研究较少。因此本文对聚合物混凝土与水泥混凝土粘结抗
学位