基于偏斜数据集的中文文本分类问题的改进特征权重算法研究

来源 :东北师范大学 | 被引量 : 11次 | 上传用户:davidcao2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的飞速发展,各种多样化的庞大信息资源每天以数量级的形式增长,在海量信息资源中大多数信息仍是以文本的形式存在,如何管理、组织如此庞大且不断增长的文本信息,并且从中挖掘出人们需要的相关信息已成为一项具有研究价值的课题,近年来得到国内外学者的广泛关注。文本自动分类技术应时代的需求自此产生,并且随着该技术地不断发展,已成为各种搜索引擎、信息检索、信息过滤等问题的行之有效地解决办法,成为一项具有广泛应用前景和使用价值的关键技术。随着越来越多学者的关注和研究,目前已在国内外学术界掀起一股热潮。在文本自动分类过程中,包括多项关键技术:分词、特征选择、向量空间模型、建立分类模型、分类评价指标等。基于机器学习的文本自动分类大多建立在向量空间模型之上,在空间向量模型中,将文本以计算机能够识别的形式表示出来,通过特征权重计算方法计算出文本中处于重要地位并且能够较好地表示文本类别的特征词的权值,忽略掉对分类没有贡献或者说贡献不大的词。这样做的目的一是可以降低文本向量空间的维数,提高文本分类的效率,二是可以使选择出来的特征词能够更好地代表文本,提高文本分类的精度。因此,文本特征权重计算方法是文本分类的基础和前提,具有重要的地位。基于以上分析,本文将研究重点放到特征项权重计算方法的改进上。所做工作主要如下:(1)介绍了文本分类的研究背景和理论知识,分别介绍了国内、外文本分类技术的发展状况和优秀分类体系。(2)阐述了文本分类的关键技术,主要包括文本预处理、特征降维、文本表示、文类算法及分类评价指标等。(3)详细分析了经典的特征权重算法TFIDF,并指出传统算法的缺点,主要针对于特征词分布于类间、类内以及类别分布偏斜的数据集三种情况下,对传统特征权重算法提取出的特征词对文本分类效果的影响进行分析,指出其问题及不足。同时针对目前基于传统TFIDF进行改进的特征权重算法进行介绍和对比分析,文中重点对以上提出的问题表现优秀的TFIDF-DI算法进行分析和讨论。(4)描述偏斜数据集的概念和近年来基于该概念产生的新理论和新方法,用传统特征权重算法TFIDF和TFIDF-DI两种算法进行对比实验分析,指出这两种方法对于分布偏斜的数据集所具有的缺点,并分析其原因。(5)通过详细分析对比,在TFIDF-DI算法基础上提出新的改进算法TFIDF-λDI算法,引入λ因子用以修正基于偏斜数据集的文本分类问题,通过实验对传统特征权重算法TFIDF和基于TFIDF改进的优秀算法TFIDF-DI及本文提出的新的改进算法TFIDF-λDI进行对比分析,实验结果显示本文提出的TFIDF-λDI算法对于数据集分布偏斜情况下的文本分类问题具有较好的效果。
其他文献
随着汽车工业的飞速发展,汽车电控单元(electronic control unit,ECU)的数量越来越多。大量ECU的使用对汽车控制程序也提出了更高的要求。汽车电子控制从硬件到软件都变得更复
近年来,随着信号处理理论和计算机的发展,人们开始用摄像机获得周围环境图像并将其转换成数字信号,用计算机实现对视觉信息的处理,这就形成了计算机视觉这门学科。成像在视网膜上
随着汽车工业的不断发展,车辆从人们生产生活的一种机械化工具,逐步发展成为智能化,集成化的多信息交互平台。人们要求车辆除满足基本要求以外,更希望他能够像一位助手,在各种不同的应用环境中协助处理更多,更复杂的事情。随着汽车电子技术的不断发展,以及计算机嵌入式技术的引入,基于单片机嵌入式技术的车辆电控系统控制器已经逐渐成为大型车辆和高档轿车的控制核心。车辆电控系统控制器主要用于对现代车辆中各类设备运行参
随着计算机操作系统的发展,其架构逐渐呈现出多样化。一体化内核由于其在性能等方面的优势,一直是操作系统的主要架构。但随着人们对系统安全性和灵活性的日益关注,其它架构
软件复用是在软件开发中避免重复劳动的解决方案,有效的软件复用是提高软件生产效率和质量的切实可行的途径之一。而构件库作为软件复用的基础设施,在构建复用的软件开发过程
图像配准是对两幅或多幅来自不同设备或不同时间拍摄的图像进行空间位置对齐的过程,目标是为了寻找它们之间的一个空间变换,使得在这个最优变换基础上,两幅图像间的像素点在
无线传感器网络是由大量的体积小、价格低廉、电源能量极其有限、存储能力和数据处理能力比较弱、具有无线通信和监测能力的微型节点通过自组织的方式形成的网络。这些节点被
聚类分析作为数据挖掘的一个重要任务,具有广泛的应用领域,这些不同的应用都对聚类分析算法提出了新的要求。本文提出了基于网格的并行聚类分析算法PGMCLU,该算法的创新点主
本文基于31P磁共振波谱图(31Phosphorus Magnetic Resonance Spectroscopy, 31P MRS),通过对肝脏数据样本的分类进行病情的诊断,共分为三种诊断类型:肝癌,肝硬化和正常肝。31
深度学习技术在人工智能领域已经被应用到各行各业中,为人们提供更加智能信息资源。通过组合多种类型的网络层,形成深度神经网络模型,逐层对原始数据计算,利用反向传播算法学