基于术语离散因子的特征选择算法在文本分类中的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:scg5252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,如今到处充满着互联网“大数据”的气息,这就使得电子文本数据信息变得越来越多。对于这些大量的文本数据信息如何处理,并从中快速、准确地找到有用的信息是当前需要解决的问题。文本分类技术的出现可以解决这一问题,但是数据维度过高会使文本分类的效率降低。特征选择作为文本分类技术最关紧要的步骤,它可以降低特征空间的维度,并提高文本分类的精确率。因此,本论文主要是对文本分类中的特征选择算法进行研究。论文主要是对文本分类的详细过程以及相关的技术进行了阐述,其中主要包含文本预处理、文本表示模型、用于降低特征空间维度的特征选择算法、以及用于文本分类的分类算法和用于评估其分类性能的评价指标,并对每一个步骤中的方法和模型都依次进行了详细地介绍。对于数据维度过高的问题,论文深入地分析、研究了相关的特征选择算法,并根据术语的分布情况提出了两个特征选择算法。实验结果证明,这两个算法可以有效提高文本分类的精确性。(1)提出了一种基于术语正率的特征选择算法(MTFS)。根据分析比较常用的特征选择算法,可以发现大多数特征选择算法都没有综合地考虑过文档频率、词频和术语在类中及类间的分布问题。根据此发现本文所提出的MTFS算法综合考虑了术语的分布情况以及在类中存在高度稀疏术语的问题。在实验中采用几种经典的特征选择算法与其作对比,并在四个常见的数据集上分别进行了实验以及验证。根据实验的结果可以看出,MTFS算法相对于其他算法来说其效果是比较好的。(2)提出了一个特征选择算法是基于词频重要度的(TIFS)。通过对比之前的特征选择算法发现,很多算法都忽略了一个重要的因素,那就是词频。所谓词频,就是指特征词在数据集的文本中出现的次数。词频对于在文本分类中进行特征选择时是很重要。此算法充分考虑了词频对于特征选择算法的重要性,并引入了词频重要因子和类间聚集因子,来衡量特征选择算法的有效性。在实验阶段,主要采用NB分类器和SVM分类器在四种数据集上将TIFS算法和五种优秀的特征选择算法进行对比。依据实验结果表明,TIFS算法能够使得文本分类的性能得以提高,它是一个不错的并且有效的特征选择算法。
其他文献
随着图像数量的快速增加,相册实物的制作变得越来越具有挑战性。当没有合理的管理流程时,制作相册显得困难重重,相册质量更是难以保障。因此如何建立一个相册系统来帮助人们
图像分割作为图像处理中的预处理过程,在图像处理领域有着重要的地位。其中视觉显著性目标分割方法是图像分割的重要分支,因其通过模拟人的视觉注意机制,可以快速的在图像中
目的:毒品滥用问题已经成为世界上一个主要的公共健康问题,是全球社会个人身心健康和社会安定的一个巨大隐患。长期毒品滥用导致吸毒者脑功能存在严重障碍,因此毒品的成瘾也
室内定位作为LBS应用的关键基础,已成为人们日常生活中不可或缺的重要服务之一。然而,随着入网智能设备数量的爆炸性增长,将所有数据都传输到云端进行处理分析,会造成巨大的
中国儿童超重肥胖的比率在不断增长。而超重及肥胖儿童在成年以后的肥胖风险显著高于正常体重儿童。因此,关注和解决儿童的肥胖问题,是我们的首要任务之一。儿童的食物环境可
随着科技与工程技术的进步发展,各类传感器精度越来越高,信息数据处理能力也在快速发展,提供了更为便捷、舒适和高效的生活方式,各类消费类电子、医疗电子产品等飞速发展和更
随着桑黄在医学领域愈加广泛的应用,对桑黄年份的鉴别变得尤为重要。因此,本文通过扫描电子显微镜(SEM)对人工栽培1-3年生桑黄子实体的显微结构进行观察和测量,在微纳尺度观
地球上拥有广阔的海域,丰富的海洋资源成为人们赖以生存的重要条件,如何利用和保护这一资源逐渐成为人们关注的焦点。水下人工目标的检测是保护水资源的一个重要部分,与之相
随着国家交通网络的日趋完善,交通工程的信息化和智能化已经成为当今发展的主流,而车辆的分类以及车辆的行为识别作为其中的关键技术,在工业领域和学术领域同样受到了广泛关
随着人工智能技术的不断进步,人脸表情识别作为一种生物识别技术在计算机视觉和模式识别等领域得到了广泛的关注。研究人脸表情可以使机器更准确地理解人类的情感并做出相应