文本分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:linux_secway
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW的出现导致网站上的文本成指数级增长,因此如何自动处理这些海量联机文本成为目前重要的研究课题。自动文本分类是文本信息处理中的一个重要环节。 本文研究文本的自动分类算法。本文对常用的文本分类算法进行了评价,并且对这些算法在文本分类的应用进行了讨论。文本分类算法是有监督的学习算法,它需要一个分类好的,类别已标识的文本数据集训练分类器,然后用训练好的分类器对未标识类别的文本分类。一般分类器的精度随着训练文本的增多而提高,但人工分类好的文本是一种昂贵的资源,文本分类算法要解决的一个重要问题是要减少训练集中人工分类的文本数量,同时保证其精度。针对这一问题,本文从以下两个方面进行了研究。 首先,研究了在训练集较小的条件下提高分类精度的问题。本文在最近特征线算法的基础上,结合k近邻算法的思想,提出一种k最近特征线文本分类算法。实验结果表明,该算法在训练集较小的情况下,算法可以具有较好的性能。 本文的另一贡献是采用未标识文本来扩充训练集,提出了迭代TFIDF算法。网上存在大量文本,这些文本一般都没有类别标签,该算法可以利用大量廉价的未标识文本,结合很少的手工标识文本,通过迭代训练出较高精度的TFIDF文本分类器。实验结果表明,在同等实验条件下,该算法精度高于已有的EM贝叶斯文本分类算法。迭代TFIDF算法属于爬山算法,初始值的选取对精度影响较大,算法容易收敛到局部最优值。 针对迭代TFIDF算法存在的局部最优问题,本文引入主动学习的概念,提出了基于主动学习的迭代TFIDF算法。实验结果表明,主动学习可以有效的抑制算法收敛到局部最优值,进一步提高了算法精度。
其他文献
本文对软件可靠性工程在软件测试中的应用进行了研究。文章在对软件可靠性工程和软件测试等相关理论进行深入研究后,将软件可靠性工程与镇江海关口岸电子政务项目测试过程相结
随着网络规模的迅猛发展以及用户需求的膨胀,Internet已成为人们信息发布,娱乐和交流的媒体。尽管Internet提供大量的信息和搜索门户网站,但用户往往无法找到自己所需的内容。WE
本文对企业管理相关领域和软件工程方法进行了研究,并结合自身在企业信息系统开发过程中的实践,提出了以BPR和复用驱动的EIS开发方法。该开发方法的主要特色与创新点如下:1)在El
本文为作者在企业博士后期间一些主要研究工作的报告,主要为数据仓库和商务智能项目过程研究方面的内容.商务智能已经成为企业创造更多盈利的关键,商务智能将是下一个热点,数
随着通信技术的发展,无线通信环境日益复杂,在较宽的频带上通常存在着采用不同调制方式调制的通信信号。如何有效地识别这些信号,在军事和民用领域都具有重要的应用前景。如在电
要实现新开发的设备驱动程序在多个操作系统下的可重用性,需要构建驱动开发环境以屏蔽各种操作系统对驱动的差异性。本文提出并设计了一种驱动封装层来达到这个目标。驱动封
本文首先对当前计算机网络的安全问题进行了简单介绍,分析了在网络安全体系中引入入侵检测技术的必要性,并介绍了入侵检测的一些基础知识,详细分析了已有的各种分布式入侵检
构建分布式多层系统的三种主流组件技术分别是:COM/DCOM/COM+、CORBA和EJB。这些组件技术都是客户/服务器模式的,只能将数据移动到计算端,存在对象功能单一,网络适应性差等不
在网络技术发展日新月异的今天,移动代理技术凭借其出色的自治性和移动性,成为继CORBA、EJB、DCOM之后的新一代分布式处理的关键技术。国内外众多研究机构都在积极寻求移动代理
鉴于目前在主干网络中存在大量的IPv4设施,我们建议IPv6的部署首先从边缘接入网络开始,结合WLAN技术和移动IPv6,实现一个个移动IPv6的孤岛,逐步向纯IPv6环境过渡.在这个过渡