基于词语权重的中文文本分类算法的研究

来源 :河北工业大学 | 被引量 : 3次 | 上传用户：tiandiren100

【摘要】

：

随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增

【作者】

：

侯艳钗

【机构】

：

河北工业大学

【出处】

：

河北工业大学

【发表日期】

：

2011年01期

【关键词】

：

信息检索文本分类特征抽取词语权重文本分类模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。因此如何在浩瀚的信息资源中快速、有效地找到自己所需要的信息以及有效地利用这些信息就成了当前研究的热点。文本分类在信息检索中起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括文本分类的基本概念、文本表示模型、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;最后在特征项权重方面,我们分析了传统特征项权重方法的缺点,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种改进的权值计算方法。该权值计算方法将CHI统计量公式引进到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。在特征赋权方面,提出了TF-IDF与X2统计量相结合的权值计算方法。实验证明改进的权重计算方法对分类精度有了很大的提高。论文最后设计和实现了基于词语权重的中文文本分类系统的总体框架,系统流程和功能模块;应用词语权重理论,提出了一种文本分类的新方法。最后设计并验证了基于词语权重的文本分类模型。实验结果表明基于词语权重的文本分类模型是一种比较稳定的算法,证明了算法的有效性。

其他文献

弹性分组环网中拥塞控制算法的研究与改进

弹性分组环(Resilient Packet Ring)是一种应用于高速城域网的环形网络架构,并且拥有故障容忍与带宽使用率高等特性。在弹性分组环的拥塞控制中,公平性、稳定性、和收敛时间

学位

弹性分组环拥塞控制公平算法模糊控制NS-2网络仿真

基于非结构化P2P系统的搜索算法研究

进入二十一世纪,P2P技术发展十分迅速,各种新的P2P (Peer to Peer)应用软件层出不穷,它改变了传统的C/S (Client/Server)模式,所有节点地位都是对等的,弱化甚至取消了中心服

学位

P2P非结构化搜索算法One-hop副本近邻密集度

分组密码算法和杂凑函数的Grover量子搜索分析研究

Grover量子搜索算法以其研究对象的普遍适用性受到了众多学者的关注,利用量子本身具有的并行性,Grover算法能够将搜索时间的复杂度降低为O ( N )。目前对于Grover算法的研究

学位

分组密码杂凑函数Grover量子搜索算法量子黑箱Oracle量子线路

移动对象反向k近邻查询研究

近年来,移动设备和无线网络的广泛应用带来了基于位置的服务(LBS)应用的快速发展。位置信息相关的查询在LBS中扮演了极为重要的角色。其中一种重要的查询是(单色)反向k近邻查

学位

移动对象反向最近邻反向k近邻连续查询基于位置的服务

基于关联规则的入侵系统设计与实现

学位

基于信息理论学习的支持向量数据描述集成

单类分类是介于监督学习和无监督学习之间的机器学习任务,它能够有效地解决仅有一类样本训练分类器的问题和类别极端不平衡问题。迄今为止,涌现了大量的单类分类方法,其中最

学位

支持向量数据描述相关熵Renyi熵单类分类选择性集成

一种基于垂直划分的数据流频繁项集挖掘算法

数据流这种数据形式广泛地存在于现实世界中。例如,传感器网络监控、气象监测数据、电话通话记录、网络通讯监测、股市实时交易数据、web用户点击数据流或者网站访问日志统计

学位

数据流频繁项集挖掘垂直划分FP-Stream倾斜时间窗口

基于多特征的口腔正畸图像检索技术的研究

二十一世纪是一个信息大爆炸的世纪,计算机和互联网如浪潮般走进了人们的工作、学习、生活各个领域,可以说是无处不在。图像检索技术就是在这种形势下逐渐发展起来的一个热点

学位

图像检索累积直方图图像分割形状不变矩

基于Web服务的数据集成关键技术研究

随着互联网、信息技术和数据库技术的飞速发展,各大公司和企业纷纷建立了各自的IT信息集成系统,由此积累了大量异构数据,如何高效便捷的处理这些数据信息成为企业信息化进程

学位

异构数据异构数据集成分布式技术Web Services

遗传进化神经网络算法在分类问题中的设计和研究

分类是通过训练数据集找出类别的概念描述,根据概念描述建立分类模型,从而使用该模型来分类同种数据。目前常见的分类方法有神经网络方法、贝叶斯网络、粗糙集、模糊集和支持

学位

数据分类遗传进化神经网络神经网络遗传算法NEAT

基于词语权重的中文文本分类算法的研究

与本文相关的学术论文