基于综合比率因子的互信息特征选择方法的改进

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:mesnower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类现阶段仍是信息处理领域中一个开放的、重要的研究方向,并得到了普遍广泛地应用。文本分类中包括许多环节,其中包括有:文本预处理,特征选择,文本空间向量模型的表示,文本分类器的训练,文本分类等。其中,特征选择是文本分类中最重要的阶段之一,能否利用特征选择挑选出适合的特征词对文本分类的效果有着重要的影响。本文主要针对互信息特征选择方法存在的不足,提出了改进互信息特征选择方法的思路和方法。论文的主要研究工作如下。1.首先本文对文本分类进行了介绍,并对文本分类各个阶段以及相关技术进行了论述和研究,并重点对互信息特征选择方法进行了研究,描述了传统互信息方法的一些不足之处,并针对不足之处提出了相应的改进思想。2.针对互信息特征选择方法只考虑了词语在文本集中出现的文档频率,而没有考虑到特征的词频信息以及与文本类别之间的相关性的问题,提出了引入综合比率因子的改进思想,将特征的词频以及与类别之间的相关性等重要信息考虑进去;并用平衡因子处理正负相关问题,调整正相关和负相关特征的比例,考虑负相关特征的作用。通过实验证明改进的互信息特征选择方法在一定程度上提高了分类的准确率。3.针对互信息特征选择方法中没有考虑特征项本身的语义信息的问题,提出利用《知网》(HowNet)中的中英双语知识词典构建“概念-领域”表,对每个词进行查询,如果在表中就把该词映射到“领域”,否则保留原词。这样不仅可以将低层次概念转化为高层概念,还能在一定程度上消除特征冗余,并从语义上加强了特征对所在领域的分类贡献度。结果表明结合语义改进的互信息特征选择方法可以在一定程度上有效地提高准确率。
其他文献
目前,高等院校针对学生的管理工作开始多样化,但对学生在学习成绩上的关注始终没有减弱。为了学生让学生享受美好大学生活的同时,能更高标准的完成学业工作,关于评奖评优的促进工
随着计算机网络的迅猛发展,网络规模的迅速扩大,网络资源信息量也呈爆炸式的增长趋势,如何在海量的资源信息中快速定位人们所需资源,并有效的利用它们成为人们所关注的焦点。
随着网络技术的快速发展,XML数据正成为主流的数据形式,已逐渐成为互联网上数据交换和处理的标准,在各个领域都有广泛应用。但由于XML数据路径分支多、存在大量冗余信息,造成
随着科技不断发展,网络的规模不断扩大,网络的技术也在不断推陈出新,在这种环境下,利用模拟方法研究越来越受到研究人员的欢迎。NS2是现在最流行、用户最多的网络模拟器之一
人工智能研究的进展,伴随着新问题的产生,对应着新思路的出现,粒计算就是数据处理的新课题,得到了研究者的关注,成为了研究的热点,形成了人工智能的研究方向。对数据有目的分
随着社会对信息数据的巨大需求,遥感影像数据量呈爆炸式增长,同时,遥感应用对数据处理的巨量需求,推动了遥感影像处理技术的不断发展。高性能集群计算是实现海量高分辨率遥感卫星数据快速处理的重要技术之一,能有效缓解高分遥感应用的“瓶颈”。其中,任务调度模型是提升集群系统效率的关键。作者所参与研发的国家重大专项课题“高分辨率对地观测应用系统”中海量遥感影像共性产品生产系统,具有任务性质单一、子任务量轻、资源
图像拼接技术一直是图像处理、计算机视觉和计算机图形学的研究热点。它可以用来建立高分辨率,大视角的图像,在遥感技术、虚拟现实、医学图像处理、军事、摄影测量等领域中均
无线传感器网络因为其自由度大、节点数量多、网络布局复杂,但也因其应用广泛、前景宽广,使其成为现代网络技术中的研究热点。无线传感器网络定位是无线传感器网络领域中重要
词汇语义关系是自然语言处理中至关重要的研究之一,词汇语义关系不仅是基础语义知识库构建的基本资源,而且在信息检索、机器翻译、情感分析等领域具有十分重要的作用。词汇语义
近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。但是由于微博平台中的数据量非常庞大,在这样浩瀚的数据海洋中提取出带有观点的句子不是