基于词语权重的中文文本分类算法的研究

来源 :河北工业大学 | 被引量 : 3次 | 上传用户:tiandiren100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。因此如何在浩瀚的信息资源中快速、有效地找到自己所需要的信息以及有效地利用这些信息就成了当前研究的热点。文本分类在信息检索中起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括文本分类的基本概念、文本表示模型、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;最后在特征项权重方面,我们分析了传统特征项权重方法的缺点,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种改进的权值计算方法。该权值计算方法将CHI统计量公式引进到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。在特征赋权方面,提出了TF-IDF与X2统计量相结合的权值计算方法。实验证明改进的权重计算方法对分类精度有了很大的提高。论文最后设计和实现了基于词语权重的中文文本分类系统的总体框架,系统流程和功能模块;应用词语权重理论,提出了一种文本分类的新方法。最后设计并验证了基于词语权重的文本分类模型。实验结果表明基于词语权重的文本分类模型是一种比较稳定的算法,证明了算法的有效性。
其他文献
弹性分组环(Resilient Packet Ring)是一种应用于高速城域网的环形网络架构,并且拥有故障容忍与带宽使用率高等特性。在弹性分组环的拥塞控制中,公平性、稳定性、和收敛时间
进入二十一世纪,P2P技术发展十分迅速,各种新的P2P (Peer to Peer)应用软件层出不穷,它改变了传统的C/S (Client/Server)模式,所有节点地位都是对等的,弱化甚至取消了中心服
Grover量子搜索算法以其研究对象的普遍适用性受到了众多学者的关注,利用量子本身具有的并行性,Grover算法能够将搜索时间的复杂度降低为O ( N )。目前对于Grover算法的研究
近年来,移动设备和无线网络的广泛应用带来了基于位置的服务(LBS)应用的快速发展。位置信息相关的查询在LBS中扮演了极为重要的角色。其中一种重要的查询是(单色)反向k近邻查
学位
单类分类是介于监督学习和无监督学习之间的机器学习任务,它能够有效地解决仅有一类样本训练分类器的问题和类别极端不平衡问题。迄今为止,涌现了大量的单类分类方法,其中最
数据流这种数据形式广泛地存在于现实世界中。例如,传感器网络监控、气象监测数据、电话通话记录、网络通讯监测、股市实时交易数据、web用户点击数据流或者网站访问日志统计
二十一世纪是一个信息大爆炸的世纪,计算机和互联网如浪潮般走进了人们的工作、学习、生活各个领域,可以说是无处不在。图像检索技术就是在这种形势下逐渐发展起来的一个热点
随着互联网、信息技术和数据库技术的飞速发展,各大公司和企业纷纷建立了各自的IT信息集成系统,由此积累了大量异构数据,如何高效便捷的处理这些数据信息成为企业信息化进程
分类是通过训练数据集找出类别的概念描述,根据概念描述建立分类模型,从而使用该模型来分类同种数据。目前常见的分类方法有神经网络方法、贝叶斯网络、粗糙集、模糊集和支持