基于机器学习的文本分类研究及实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:qncy1235p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展人们可获取的信息量迅速膨胀。如何从海量数据中快速、准确、全面地查找用户所需的信息是当前信息检索的一大难题。文本分类技术作为知识的组织工具可以加快检索的速度以及提高查准率。虽然文本分类最初是应信息检索之需产生,但它的应用领域不仅仅限于信息检索。文本分类在信息过滤,数字图书馆等多个领域均有广泛的应用前景。 本文从构造实用文本分类系统的角度出发,对文本分类流程中的几个主要环节进行了研究和改进,包括文本的表示、特征降维、分类算法等问题。首先,在文本的表示方面,对不同的特征加权策略进行了研究,分析其各自的特点并提出一种综合加权策略。其原则就是要对类间分布离散度大的特征项增加权重以及结合文本结构进行加权。实验结果表明该策略有助于提高分类的准确性。其次,对文本特征降维方法进行了研究。特征降维方法主要有特征选择和特征重构。在特征选择方面,先对常用的特征选择方法进行分析和比较,在此基础上提出一种混合特征选择算法。该算法在不影响降维效果的前提下,可以加快降维的速度。在特征重构方面,本文提出了一种基于语义词典的特征重构方法。该方法能有效解决同义词问题。最后,对目前在中文文本分类文献中很少见到的基于多项分布的朴素贝叶斯分类算法进行研究。详细介绍其原理以及实现中要注意的问题,而实验结果亦表明该算法具有良好的分类性能。 在本文的最后,介绍了文本分类系统的实现,对系统的设计以及系统的主要模块进行了介绍。实验结果表明,该文本分类系统在对不同领域文本数据分类时,具有良好的分类性能。
其他文献
无线集群通信系统是一种专用的移动通信系统,它在公安、武警、交通指挥、消防以及铁路等领域应用十分广泛,特别在公安系统,全国大小城市基本都建立公安专用的无线集群通信系统,公
互联网技术、Web技术等快速发展使得网络中的数据以指数级方式增长,对于用户来说,利用关键词找到自己所需要的信息也越来越困难,产生“信息过载”等问题。在应用需求的推动下,信
随着信息化和全球化的进程,人们对条码技术的需要层次不断提高,尤其是需要在有限的面积上表示更多的信息量,这就要求条码具有高密度、大容量和高可靠性。在这种需求下,二维条码孕
随着计算机技术的发展以及全球经济的增长,世界各地各种各样的组织对IT系统的依赖都在不断增加。电子贸易使得商务每周七天每天24小时不问断的进行成为了可能。商业和社会机构
随着经济、技术等各方面的进步,现代社会已经步入了信息时代,以信息化、知识化表现出来的时代特征越来越明显,以科学技术为核心,通过对信息的收集、分析、加工和整理来获取财富成
本文提出一种基于Java的新型量子程序设计语言NDQJava,考虑到未来量子计算机可能的特点,这是一种混成语言,Java是其子语言,与现有量子程序设计语言不同,此语言绕过不可克隆原理,根
智能视频监视系统有着广泛的应用前景,而其中运动目标的分割技术是其首要技术。运动目标的分割主要包括运动目标的检测和从图像中提取出运动目标所在区域,目的是为后续的目标跟
分布式并行计算系统使用众多廉价计算机组成网络计算平台,将计算任务进行分解,并通过网络传递到各个机器上进行并行求解,从而为高性能并行计算提供了新的选择。这类系统提供与专
随着信息化程度的不断深入,企业组织的信息化不仅依赖于看得见摸得着的IT产品,更依赖于对这些IT产品的管理和维护等服务性质的工作,因此,IT技术在企业中的工作重心已由软硬件产品
近年来,信息技术领域的数据服务外包模式得到了长足的发展。数据服务外包模式具有多种具体的表现形式,如数据库服务外包、委托计算和云计算等,为用户带来了稳定、高效和低成本的