基于图模型的中文小样本文本分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:errorli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,海量的信息以各种方式出现,其中最主要的还是文本信息,因此文本自动分类成为了国内外研究的热点,现在已经出现了大量有效的分类方法,例如:Naive Bayes、KNN、SVM、决策树以及神经网络等。在处理海量信息时,因为有大量的训练样本可供其学习,所以SVM方法是效果最好的。但在缺少样本的情况下,使用SVM, KNN等方法的分类效果并不出色,其原因是因为向量模型只选取了文本的数字信息,而忽视了文本中词的联系。本文在分析特征选择时信息增益法和互信息方法的计算方式的差异的基础上,给出了一种基于空间角度的特征选取方法,以有效降低特征词的维数。在分析了向量空间模型的缺点的基础上,给出了基于图模型的方法,以及相似度比较和Graph-KNN分类算法,来提高小样本集下的文本分类的准确度。对各算法进行了仿真,进行了大量的训练和测试,对比了本文给出的方法和未改进的KNN方法的各项性能,证实该方法的确能提高小样本集下的文本分类的准确度。本文的最后分析了该方法应用在全文检索系统上的可行性。
其他文献
由3GPP主导和推动的升级版LTE-A已经成为当前广泛使用的第四代移动通信标准。由于LTE-A—般釆用同频组网模式,因而导致了小区之间的同频干扰问题,给小区边缘用户体验带来影响
进化算法是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。二十世纪六十年代以来被广泛应用于工业工程优化领域,并产生了深远的影响。单体
Internet/Intranet的飞速发展,给我们提供了一个高效、便捷的网络环境,使很多领域发生了翻天覆地的变化。面对日益激烈的全球化竞争,企业为了降低成本、缩短产品的设计周期和
CAD技术由于其简单快捷、存储方便等诸多优点使得它在众多领域的设计中有着不可替代的作用,它能够大大提高设计质量、缩短设计周期、共享设备资源和增强数据处理能力。但是它
无线传感器网络由大量具有通信与计算能力的传感器节点自组织构成,可用于实时监测、感知和采集目标对象的信息。随着近年来传感技术、无线通信技术和微机电系统技术的不断发
OLAP是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。本文首先研究了数据仓库的相关知识与技术,分析处理和传统的事务处理有着很多不同的地方,直接使用
随着企业信息网络化的发展,网络在企业日常工作中发挥着越来越重要的作用。网络化在方便信息传递和共享的同时,也给企业信息的安全性带来了隐患。传统的基于边界安全的安全技
P2P技术在过去几年内快速成为计算机行业关注的话题,P2P将网络应用的核心从中央服务器向网络边缘的终端设备扩散。但是P2P系统的开放性以及节点匿名性等特征导致了计算机病毒
信息技术的快速发展聚集了海量的网络数据。如何从海量数据中快速有效地获取信息正面临着巨大的挑战。在社会网络分析领域,链接预测作为网络结构研究的一个关键问题,不仅要考
随着数字化技术的发展,视频资源日益丰富,但是部分违规视频也掺杂其中,违规视频对社会造成了极大的危害,因此,对视频进行监测已经成为亟需解决的问题。视频监测的两个重要特