基于聚类分析的图模型文本分类

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:CPhoenixEx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着文本信息的迅猛增长,信息处理已经成为人们获取知识不可缺少的工具。文本分类是信息处理的重要研究方向,它有效地提高了信息服务质量,使用户更加容易、准确地定位所需的信息,并被广泛应用于文本处理和信息检索的各个领域。文本分类是一个复杂的过程,包括文本预处理、文本特征提取、文本表示、文本分类算法设计与性能评估等主要步骤。本文对文本分类所涉及的关键技术进行了深入的研究和探讨。目前,一些比较成熟的文本分类算法已经被应用于文本分类中,但它们大都是基于向量空间模型的,文本向量的维数相当大,甚至可以达到几万维。本文首先通过χ2统计进行初步的特征筛选,然后根据特征项在各个类别中的分布情况,提出了一种基于χ2统计的特征聚类算法,将具有相同分布的特征构成概念簇,降低了特征维数,解决了特征空间的高维性与文本向量稀疏性之间的矛盾。针对传统向量空间模型中孤立处理特征项问题,本文又使用图模型建立了特征项之间的关联信息,在一定程度上解决了关联特征提取和向量空间维数高的问题。最后,在充分考虑了特征降维和消除歧义的基础上,运用KNN方法对基于特征聚类的图模型进行文本分类。该算法提高了稀有词对分类的贡献、强化了关联词的分类效果、并降低了文本向量的维数。该算法提高了分类的准确率和召回率。
其他文献
近年来,3D人脸识别一直是当下模式识别领域的热点。3D人脸识别相对于指纹识别,虹膜识别等识别系统有着先天的优势,主要体现在操作简单方便,对目标具有相当小的侵犯性,甚至可
随着网络技术的发展及应用的普及,园区网结构和用户行为越来越复杂,管理也变得愈加困难。作为网络行为的主体,主机的使用者是网络行为的责任人,因此对网络用户的网络行为管理
科学技术的突飞猛进、世界范围的互联网络,使得人们获得的数据量急速增长,与人们生活密切相关的电信业也积累了海量的数据。数据挖掘技术的出现使得电信运营商得到启发,他们在行
随着人们生活质量的不断提高和传感器网络技术的进步,具有网络传输功能的智能物件不断融入人们的生活,成为生活必需品。智能物件大多采用无源供电,因此,智能物件数量的增加给
手语是聋哑人群体用来交流、学习的主要手段。许多国家和地区都将手语作为一门语言学来研究,并且取得了一定的成果。在计算机领域,研究者们根据手语语言学者的研究成果,将手
随着网络技术的飞速发展,用XML表示与存储的数据量与日俱增,尤其在网络数据的发布,各组织间的数据交换以及电子商务等应用领域中。XML已经成为数据表示,存储与交换的标准,在X
测控系统要想获得原始数据需要通过传感器,压力传感器由半导体材料的压阻效应做成的传感器,是一种以压力作为被测量转化成电流或电压的器件。由于压力传感器的非线性特性及热
面向领域的数据库问答系统是允许用户用自然语言访问数据库的一种方式,它是多学科交叉的产物,涉及自然语言处理,数据库技术,人工智能,人机界面等多方面研究。四十多年来,面向
论文对国内现有的几种汉语自动分词中的歧义字段切分算法进行讨论,重点分析了BP神经网络的局限,提出了改进,建立了新的BP网络歧义切分模型,使其对于歧义字段的切分精度和效率进一
随着数据采集、处理、预测等技术的不断进步,不确定序列数据普遍存在于科学、通信、物流、金融等领域的具体应用中。本文首先关注于一般形式的事务序列数据库中的频繁模式挖