基于χ<'2>统计的中文文本分类特征选择方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:woailzm002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的大规模普及,信息量迅速增长,用户要在海量的信息中找到自己所需要的信息,就像大海捞针一样困难。如何从大量繁杂的文本信息中获取有用的信息?文本分类就是实现它的最重要的方法之一。文本分类和特征选择方法是文本挖掘的两个重要的研究方向。 文本特征选择是文本分类过程中的一个重要环节,它直接影响文本分类的查准率。本文在全面分析文本分类特征选择方法的基础上,重点研究了基于χ2统计的特征选择方法,发现传统的χ2统计方法有如下缺点:1)只考虑了特征在所有文档出现的文档频数,没有考虑特征在某一文档中出现的文档频率,因此对文档频率低的特征词不可靠。在类内部的文档中,如果特征词在少量文档中频繁出现很有可能对分类的贡献很大,比如专指概念,显然这样的特征词能够很好代表这个类的特征,然而传统的χ2统计方法没有考虑这种情况;2)当特征词在其他类出现频率比较高,在指定类出现频率比较低时,在传统的统计方法中,仍然会将这些特征词作为该类的特征项。但是,这样的特征词很明显不能够代表这个指定类,不应该作为该指定类的的特征项。 针对传统的χ2统计方法存在的缺陷,通过引入文档内频度、类内正确度等指标对传统的χ2统计方法进行改进,解决了对低频词不可靠等问题。本文的另外一个工作是,构造出了一个集分词、特征选择、分类于一体的中文文本分类系统。该系统的分词、特征选择、分类3个模块之间相互独立但它们之间的接口是统一的。也就是说各个模块可以很方便地调用其它模块,某一模块所作的修改对其它模块是透明的,对任何一个模块进行改进时不会引起其他模块的变动。 对比实验结果表明本文方法的整体混淆矩阵、总体查全率、查准率、F1值以及各个类的查全率、查准率、F1值与传统方法、已有改进方法相比都有明显提高。
其他文献
视觉目标跟踪在视频监控、图像压缩、三维重构、机器人技术等领域有着非常重要的应用。目标跟踪的难点在于物体的突然运动,目标或背景突然改变其外部表现形式,目标的非刚性结
随着中国联通移动自建传输网从无到有,从小到大,传输网络面临着从低容量、小颗粒、简单结构需求到高容量、大颗粒、复杂结构需求的变化,而同时传输网络不可能像业务网络那样
挖掘关联规则可以发现大型数据库中数据项相对关系,由于其在现实世界的广泛应用,关联规则已经在学术上获得了广泛的研究。所以关联规则挖掘成为数据挖掘研究中的一个热点,已
Web Services是一种完全基于XML、XSD(XML Schema)的独立于平台、独立于软件供应商的标准,是一种创建可互操作的、分布式应用程序的新平台,是目前最有生命力的跨平台技术和分
信息技术的高速发展和广泛应用,引发了全球性的产业革命,正推动着世界经济的发展与人类社会的进步。物联网作为新兴网络,虽然不是一个新的概念,但是已经成为了经济、科技发展
目前,国内的专网通信领域按调度方式划分主要包括三大类系统:无调度功能的对讲机系统,依赖于基站调度的集群系统和本身具备调度功能的无中心系统。在通信系统全面数字化的趋
在医疗康复领域,传统的康复训练方法有人工辅助康复和机器人辅助康复两种,现在普遍存在医疗资源匮乏、设备造价昂贵、维护成本较高等问题。人机交互指人通过身体姿势(包括手势、体势、表情等)将想要表达的信息传递给计算机,计算机识别人体行为动作并进行反馈。利用人机交互来代替传统的康复训练方法可以有效解决上述问题,为病患提供一套廉价、方便、有效的康复训练系统是康复领域研究的热点。本文采用基于虚拟角色的游戏方式,
数据库物理结构(索引,物化视图,裂片等)的改变虽然不影响查询结果,但会影响数据库性能。数据库的物理结构、查询优化引擎和执行引擎构成了影响数据库性能的三大要素。 第一代关
关联规则的研究是数据挖掘的重要内容之一,现行的关联规则挖掘算法大多只针对单一数据库进行挖掘,但是实际应用中,往往碰到多个数据库的情况,由于单一数据库和多数据库的不同
现阶段计算机硬盘以及其他大容量存储介质代替了纸张成为信息存储的主要方式,电子文档信息的安全性成为一个至关重要的问题,需要加密技术和认证技术相结合,实现电子文档的存