基于同义词的文本分类研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:qingtianleng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展和互联网的广泛普及使得人们越来越容易地得到信息。然而,互联网的信息往往是包括各个行业的文本数据,为了高效地获取相关类别的中文文本信息,有必要对中文文本进行快速分类。   本论文主要研究如下:首先介绍了中文文本分类的关键技术,包括:文本的表示方法,文本相似度计算方法,类别特征抽取,特征权重算法,文本分类算法,分类算法的评价指标;然后,通过对传统KNN算法在特征项选取方面的问题进行分析,提出了基于同义词概念的文本分类算法,提升了传统KNN中文文本分类算法的准确率;通过对KNN中文文本分类算法的流程的改进,提出了基于KD-Tree的改进KNN中文文本分类算法,增加了KNN中文文本分类的效率。   本文的改进工作有以下两点:   一、改进了特征项选择方法。将传统KNN中文文本分类算法在特征项的选取上从特征词的层面提高到了同义词概念的层面。传统KNN中文文本分类算法在特征项选择上是计算各个词语的贡献度,选择对分类共享大的词作为特征项,这会产生候选特征项极多并且候选特征项词语并不真正总是对分类贡献大的问题。针对这一问题,本文将文本分词后的词语进行同义词概念归纳统计,在同义词概念的基础上进行特征项选取,计算概念特征项权重,计算文本向量。这样就可以减少文本向量的维数,并且使得各个特征项能够比传统算法更真实地代表某个类别,使得基于概念的同类文本向量相互接近,不同类文本向量相互分离,从而提升了算法的准确率。   二、改进了KNN文本分类算法的流程。传统KNN中文文本分类算法的训练时间为零,测试时间却极长,这个缺陷大大影响了KNN算法的实用性。针对这个问题,在KNN算法测试前,将测试集全部插入k维二叉搜索树即KD-Tree,这样,计算每个训练集文本的最近邻文本时不必和测试集文本进行一一比较,只需在KD-Tree中平均搜索O(log2N)次即可找到。   实验结果证明:在准确率上,基于概念的文本分类算法比传统KNN文本分类算法准确率要高,而且对那些文本数比较少的类别提升明显;在效率上,本文所提出的改进KNN中文文本分类算法比原始KNN中文文本分类算法在效率上有了较大提高。
其他文献
随着日常生活的信息化,人们已普遍使用笔记本电脑来进行工作学习。用户为了方便操作,往往将账号、密码等个人的秘密信息或者与工作相关的重要资料存储在笔记本电脑中,致使笔记本
竖炉球团工艺作为一种重要矿石加工工艺,对自动控制系统的要求也越来越高。随着用户对球团矿质量和产量要求的不断提高以及国内外资源竞争的加剧,传统的控制竖炉球团生产过程已
近年来随着无线传感器网络的不断发展,其应用范围也越来越广泛,包括环境监测、军事控制、工业安全、通信广播、医疗服务等领域。在智能电网监测领域中,通过将无线传感器节点布置在杆塔或高压输电线路上对敏感数据的收集和发送,实时反馈各部件的工作状态从而实现对输电线路在线监测和管理。本文在分析国内外研究现状的基础上深入研究高压输电线路在线监测系统的特点,提出一种基于可靠传输输电线路在线监测系统的混合组网方法,该
21世纪是一个信息时代,随着生活的信息化,计算机犯罪越来越普遍,严重影响了社会的稳定。如何打击计算机犯罪分子,遏制此类犯罪现象,已经成为执法部门工作的重点,而与一般的案
小波变换是一种广泛应用的数学理论及方法,以小波函数作为神经元的激活函数的前馈神经网络--小波神经网络,已广泛在研究和应用领域应用。本文主要研究了小波神经网络中的学习算
传统的公钥密码体制对认证中心的依赖程度比较高。公钥拥有者需要将自己发布的公钥与身份信息在认证中心进行合法匹配,而信息发送者在使用公钥发送信息之前,要通过认证中心认
视频点播VoD是近几年研究的比较热门的话题,它所提供的交互式的服务在很大程度上改变了人们在传统的信息服务的被动模式,并且视频点播具有内容丰富,操作简单,获取便捷等一些
无线传感器网络是以数据为中心的网络,数据的感知、传输以及存储操作是无线传感器网络的主要任务。传感器节点在产生感知数据后如何存储数据,采用何种存储策略是无线传感器网络
随着信息技术的发展,人们从科学实验和生产实践中获得的三维体数据越来越多,体数据可视化的需求也日益增长。直接体绘制是体数据可视化的重要方法之一,将体数据中的体素映射为颜
由于自然因素和人为因素的影响,我国古建筑已受到了严重的破坏。为了平衡旅游经济的发展和文化保护的要求,通过对古建筑的虚拟三维建模来模拟其真实场景已经得到了广泛应用。纹