文本的特征选择与分类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:hulin510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在21世纪互联网信息技术的不断发展,文本分类作为对文本数据管理的有效手段越来越成为当今的研究热点。但文本数据大多以杂乱的形式存在,造成文档特征数量多、分布不均等问题,严重影响文本数据的分类准确率和分类效率。基于此,本文在前人的基础上对文本分类中的特征选择和文本分类算法进行研究,分别给出改进的互信息特征选择模型、基于K中心点和粗糙集理论的KNN分类算法(K Center Point and Rough Set KNN,KRS-KNN)以解决这些问题。针对传统的互信息特征选择算法没有考虑特征词频率、词性及特征词分布问题,分别在传统的互信息模型的基础上结合类内特征频度、特征覆盖率及词性系数这三个指标,构造出新的互信息评估函数。然后通过向量空间模型对特征向量化,并结合KNN分类模型对文本特征集合分类。最后通过实验对该算法进行验证,实验结果表明该算法在特征选择上具有显著的效果,提高了文本分类的准确率。同时相比于传统的互信息模型在分类上的查全率和F1值也得到了一定提升,证明了该算法应用于文本分类中的有效性和可行性。在文本分类过程中,由于特征维度高,计算难度大,使得分类效率低下,因此引入一种基于K中心点和粗糙集的KNN分类算法。首先该方法在K中心算法的基础上,把文本数据集合聚类为簇,并分别计算每个簇中簇心及其它文本数据的代价函数值,并设定阈值,将代价值较大的数据样本剔除,以降低文本集合的数据规模,减少计算量。然后运用粗糙集理论对已经确定类别的数据样本不再判断所属类别,对不确定的数据利用KNN分类算法对其分类。最后通过实验验证该算法的有效性,结果表明该算法在K中心点的代价函数和粗糙集的帮助下能够有效剔除无用文本数据,降低文本集合的计算规模,使得数据处理时间大大降低,有效提高了文本数据的分类效率。
其他文献
随着互联网的快速发展,用户在社交媒体和网络购物平台中产生了大量的数据,文本作为这些数据的重要表现形式,从中提取有效信息与寻找信息热点是现代自然语言处理研究的重要内容。文本分类作为文本信息处理的基础技术之一,一直是信息挖掘等领域的研究热点。在文本分类任务中,文本特征的提取及处理方法直接影响最终分类系统的分类效果。通过使用群体智能、迁移学习等技术可以更好的对文本特征进行识别和提取。本文提出了一种使用扩
介绍了一种四氯乙烯稳定化的方法:首先采用吸附剂分子筛和固体片状苛性钠对四氯乙烯进行干燥中和,然后用三乙胺与单乙醇胺(质量比为1∶1)的混合物(占四氯乙烯溶液质量分数为0.001
本文作者针对某砖瓦生产企业的隧道窑及其配套的隧道式干燥室进行了热平衡测试与计算,介绍了测试数据,分析了影响该窑热效率的主要因素,提出了该窑节能技术改造的方向,为相关人员
2000年以来,在高校实施学院制的背景下,“教授治学”成为我国高教界的热点问题。国内高校的“教授治学”制度并没有改变高校既有的学术性组织结构,一方面,“教授治学”制度无法回
随着移动智能终端的蓬勃发展,我国已经迈入全民互联网时代。网民数量与日俱增,同时新闻、电子书等中文文本数据也在大规模增长。如何精确地将文本数据进行自动分类,成为了自然语言处理领域的热点问题。将中文文本数据进行自动分类,对信息管理和文本挖掘等方向的研究也有着极其重要的意义。传统的基于机器学习的文本分类算法一般使用TF-IDF算法来提取文本中的特征,但是这种方式会忽略词在文本中的其他特征以及词与词之间的
CAP1000反应堆压力容器堆测接管管座采用低合金钢堆焊成型,堆焊是增材制造的最原始形态。在核电的压力容器设计上,采用堆焊结构作为结构的一个部件是不常见的。采用埋弧堆焊,
<正> 1958年,Morton和Crane等人从酵母和牛心线粒体中分离出一种非蛋白质的黄色结晶物质,并确定了这种物质的化学结构为2,3-二甲氧基-5-甲基-6-(异戊烯基)10-1,4-苯醌。随后,Cr
混沌信号的频谱中存在连续频段,这一特点通常归因于混沌的伪随机性,对连续频段的成因和特性却少有关注。基于两类杜芬方程,在其众多的解中发现一大类具有相同频域特征的混沌解,并
酒店管理是当今酒店正常运营的重要组成部分,伴随着我国酒店行业处于高速发展的阶段,正朝着高端化、服务型、国际化的方向不断发展。然而目前整个酒店行业都存在着管理的缺陷
目的探讨高压氧联合奥拉西坦对外伤后认知障碍患者的认知功能及相关细胞因子的影响。方法选取徐州市中心医院神经外科自2017年1月至2018年10月住院治疗的脑外伤后认知障碍的