文本自动分类技术研究及实现

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:liongliong432
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,特别是Internet应用的普及,电子文本信息急剧增加。如何有效地组织和管理这些海量信息,并且能够快速、准确地获得用户所需要的信息是当今信息技术领域的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的现象,方便用户准确地定位所需的信息。文本分类技术在生活中起着越来越重要的作用,成为信息检索领域中最前沿的研究热点之一。 文本自动分类是在给定的分类体系下,对未知类别的文本进行自动处理,根据文本特征来判断其所属类别的过程。本文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类的相关技术,包括中文分词技术、特征选择、文本表示以及关键的分类算法,并分别进行了研究和探索,特别对几种不同的特征选择方法进行了研究。遗传算法是模拟生物在自然环境中的遗传和进化过程而形成的一种全局优化概率搜索算法,具有简单、通用、稳健等特性。本文深入研究了遗传算法,并在降低特征向量维数方面将其引入到特征选择中。 分类器是文本分类的另一个重要环节。朴素贝叶斯分类器由于计算高效、精确度高,并具有坚实的理论基础而得到广泛的应用。本文使用朴素贝叶斯作为分类器,设计并实现了一个文本分类系统,该系统包括:①文本预处理模块,对文本进行分词、停用词过滤等;②特征选择模块,实现了文档频率、信息增益、互信息、卡方统计等特征选择算法;③文本表示模块,采用向量空间模型来表示文本,其中特征项权重采用TFIDF公式计算;④分类器算法模块,实现了朴素贝叶斯分类算法;⑤分类器评价模块,对分类器从查全率、查准率和F1值等方面进行评价。接着利用该系统进行了几个实验,包括基于遗传算法的特征选择方法的分类效果测试,朴素贝叶斯算法下常用的特征选择算法对分类效果的影响,同一语料库下朴素贝叶斯算法和支持向量机算法的比较这三个实验。并通过这些实验测试了系统的性能,验证了算法的有效性。最后对文本分类的未来研究方向进行展望。
其他文献
P2P技术已经使互联网格局发生了巨大的变化,改变了以往网络以服务器为中心的模式,使广大的互联网用户群体加入到网络共享的过程中来,有效的发掘了网络共享资源的潜力,为所有
惰性学习(Lazy Learner)分类法有别于决策树归纳、贝叶斯分类、基于规则的分类、后向传播分类等的急切学习分类技术。当给定训练集时,惰性学习法只是简单的存储它,而不像急切
目前,人们的工作和生活已经离不开嵌入式系统,各种各样的嵌入式设备例如移动终端、数字化设备、网络设备、各种传感器以及工业控制设备和办公自动化设备等被广泛应用,大大的提高
随着计算机技术的发展,软件系统尤其是基于网络实现的分布式应用系统应用越来越广泛,系统性能被列为系统质量的重要指标,并越来越受到人们的重视。系统性能测试通过自动化的测试
随着信息产业的蓬勃发展,软件所扮演的角色越来越重要。在软件产业的发展过程中“软件危机”逐渐暴露出来。研究发现,“软件危机”的实质是缺乏对软件项目进行过程管理。对于中小软件企业,由于自身人力资源匮乏且人员流动量大、资金少和制度的不完善等原因,实施软件质量管理存在更多的困难。本文在开发一个质量保证系统之前对程序的开发框架进行了研究,提出了一个在中小软件企业中普遍适用的开发框架。针对中小软件企业自身的特
对于很多网络应用,高效可靠的互联网性能参数测量对其是否能正常工作至关重要,尤其是与语音、视频传输相关的应用。由于互联网的异构性和复杂性,许多现有的网络测量方法尚不完善
程序挖掘是网络环境下实现按需定制服务的一种新型的网络计算模式。它的基本思想是:分析用户计算需求,从构件资源库中检索获取所需构件,并把这些构件组装成满足用户需求的程
Adhoc网络具有自组织、无中心、动态拓扑等特点,广泛应用于民用、军事、救灾等各个领域。现有的Adhoc安全路由协议,大多运用密码学手段对路由消息进行安全操作,提供路由消息
随着空间数据获取技术的快速发展,空间数据的数量、大小和复杂性都在急剧增加,已经远远超出了人们的解释能力,致使“空间数据爆炸但知识贫乏”。因此,利用空间数据挖掘和知识
随着网络和电子商务的快速发展,信息的爆炸性增长在给人们带来便利的同时,也给人们带来了如何在大量信息中选择所需求资源的困惑。而推荐系统就是一个帮助用户解决信息过载问