文本分类中的特征选择研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:mashangdenglu998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类中特征选择的目的是通过从原始特征集合中去除分类无关特征和冗余特征,以减少文本特征向量维数,提高分类的效率和精度。传统文本特征选择方法通常引入特征之间的条件独立性假设,注重单一特征的评价,即只考虑特征和类别之间的相关性构造特征评价函数。然而,现实文本中条件独立性多数情况下难以满足,不同特征之间常常存在相关性,这使得特征子集中仍存在大量的冗余特征。本文采用“相关分析+冗余分析”的特征选择研究思路,在对特征分布信息进行分析的基础上,首先研究类别相关的特征选择方法确定初始特征子集,然后考虑特征之间的相关性去除冗余特征。特征分布信息更能够客观地反映特征与文本、特征与类别之间的关联性。本文从对三种特征分布信息概念进行定义出发,分析并量化三种特征分布信息的可能因素以及它们之间的关系,分析特征分布信息与特征相关、特征冗余之间的关系,提出了基于特征分布差异性的特征类别贡献评价方法,以及基于特征分布相似性的特征冗余评价方法。通过公共数据集进行实验验证,表明本文提出的方法可以有效地去除分类无关特征和冗余特征,提高文本分类的性能。
其他文献
在我国信息社会高速发展的今天,传统的选举计票方式已经远远不能够满足社会的需求。以往的计票方式,如基于人工唱票的方式、基于电子选举方式和基于机器识别和智能票箱的方式
随着经济的发展,智能交通系统(Intelligent Transportation System,ITS)已成为解决现代道路交通问题的一个重要手段。车载导航系统是ITS的重要组成部分。车载导航系统是由计
随着网络和多媒体技术的不断发展,网络可视电话(VoIP)技术已经在Internet中得到广泛的应用。如何设计一款软硬件简单、稳定性好、音画质高以及价格适中的VoIP终端将具有很好
WSN中传感器节点能量、存储处理和传输能力的限制使得传统的路由协议不适合无线传感器网络,同时与平面路由协议相比,分簇路由协议具有更好的健壮性和可扩展性,适用于大规模WS
工作流模型可以清晰的描述业务流程,而且随着信息技术的进步,其应用范围也越来越广,对工作流模型的科学评价也越来越成为必要。然而,传统工作流管理系统通常只是严格按照工作
时间序列是指将某种现象某一个统计指标在不同时间上的数值按时间先后顺序形成的序列。由于真实系统或现象的内部通常会受到多种因素的影响,从而导致输出的时间序列具有许多
随着互联网的盛行,主流的在线社交媒体取得了突飞猛进的发展,而微博在这些在线社交媒体中表现出了更加突出的发展态势。微博已经吸引了海量的用户,人们在微博上分享自己的观
近些年来,随着计算机技术、网络技术、信息技术的高速发展以及电子产品成本的急速下降,企业的信息化得以空前的施展,信息化使得企业在发展过程中积累了不少数据。市场环境变
随着互联网技术的广泛发展,互联网已经成为目前世界上最大的信息资源库。在互联网信息空间中如何快速、准确、全面的找到自己想要的信息已经成为21世纪互联网技术的一大难题
随着多核计算机的日益普及,大规模科学与工程计算、事务处理与商业计算的需求,以及数据挖掘应用领域的不断扩大,基于多核平台的线性方程组数值求解算法和大数据量数值关联规