面向不平衡文本数据集分类算法研究

来源 :东北林业大学 | 被引量 : 3次 | 上传用户:txiujyhbhoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是数据挖掘领域的热点问题,但在实际应用中,会出现一些类中的文本很多,而另外一些类中的文本相对较少,不同类别数据集规模之间出现明显的倾斜情况,其中,文本分类器就是要预测携带很重要信息的少数类。由于不平衡数据集中少数类表达不充分,而多数类信息占绝对优势地位,造成传统文本分类器在整个不平衡数据集上直接训练时,分类边界偏置于多数类。传统的文本分类算法对于不平衡数据中的少数类识别率比较低,如何有效的提高少数类的分类准确率成为机器学习和数据挖掘领域急需解决的问题。不平衡文本数据集分类过程包括文本分词、去停用词、降维、文本表示、文本分类算法、分类器评价这几个步骤。提高不平衡集文本分类器准确率的方法有基于样本空间的改造、文本分类算法的改进、特征选择算法的改进。本文主要工作及创新:(1)在特征选择算法方面,信息增益(Information Gain)应用比较广泛且效果比较好,但是面对不平衡数据集,无法直接解决少数类的特征被淹没的问题,因此本文基于信息增益特征选择算法和特征词权重计算算法(Term Frequency–Inverse Document Frequency),提出TF-IG的特征选择算法,优先选入区分少数类别的特征。(2)在文本分类算法方面,现有的研究利用朴素贝叶斯方法解决不平衡文本数据集的多类别分类问题效果显著。因此,本文提出了基于Good-Turing与加权补集的多项式朴素贝叶斯文本分类算法,使用多项式朴素贝叶斯文本分类算法对不平衡文本数据集分类时,需要计算特征词在指定类别下的概率。由于文本空间的稀疏,会出现特征词为零概率的情况。本文提出使用Good-Turing算法平滑多项式朴素贝叶斯模型的词频,避免零概率的出现;利用当前类别补集的特征来表示当前类别的特征,解决训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。
其他文献
近年来,随着手机、无线通信等移动设备的迅速兴起,人们对于无线通信的服务需求也随之不断增加,如无线通信系统数据传输的质量和效率,然而在机遇的背后一些制约其发展的瓶颈问
随着信息技术的迅速发展,各种领域对CPU浮点性能的要求越来越高,而除法与开方是浮点运算中较为复杂且相当影响性能的操作。因此,开展浮点除法与方根算术运算研究具有很重要的
集群语音系统作为专用应急通信手段,在各专业领域发挥着重要作用。但是传统专用集群设备技术开发难度大,实现代价较高。而随着IP电话的迅猛发展,基于IP电话的集群语音调度系
自从09年《阿凡达》的热映,人们对于3D电影的追求近乎狂热,《变形金刚》之类的大场面电影自不必说,人们甚至追求动画片的3D效果。目前3D电影是可以直接拍摄的,但是制作周期长
随着信息化社会的飞速发展,高性能计算已成为继理论科学和实验科学之后科学研究的第三大支柱。从战略高度上讲,高性能计算技术是一个国家综合国力的表现,并在社会生活的各个
随着互联网行业的不断发展,越来越多的新兴产业加入到大数据的浪潮中,它们每天产出着海量的信息。分布式计算的出现,为处理海量数据的分析和处理提供了强有力的支持,同时也为
自人类出现以来,对于大自然的探索从来没有停下脚步。作为公众窥探和了解自然的重要窗口之一,自然纪录片以野生动植物的历史与现状、人类与自然的关系以及大自然的原始风貌为主要表现题材,表达出人类对于生态环境的深切关注,展现了人类对于社会发展与大自然两者之间关系的探索与思考,弥补了其他题材纪录片只关注人类生产活动的题材缺失。在一百多年的发展历程中,自然纪录片逐渐形成了相对完整和独立的类型体系,有着表达人文关
最近几年,煤炭市场呈现出迅猛发展的良好形势。某煤炭公司经营业绩也得以快速上升,煤炭市场的前景十分广阔,但是同时也存在很大的变数,基于此,煤炭企业倘若仍旧沿袭传统的管
3D技术的蓬勃发展使得3D视频深入人心。与戴眼镜式的3D技术相比,裸眼式3D给人们提供了更为轻松的观看体验。裸眼显示方案通常在已有的双目3D视频下生成多个中间视点,然后将生
随着信息量的爆炸式增长,人们迫切的希望提高信息的传输速率,最直接的解决办法就是提高信号的频率,时间透镜在这种情况下被提出。最开始人们研制时间透镜是为了对信号进行压