支持向量机文本分类的关键问题研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kakayang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络、数据库、多媒体等技术的飞速发展和日益普及,因特网上的可用信息以惊人的速度增加,仅Google搜索引擎能索引到的网页就高达80亿张以上。因特网信息表现为文本、声频、图象和视频等,其中文本类信息占绝大多数。为了更好地处理这些数量庞大、结构不确定的文本类信息,人们迫切需要一些高效的文本检索、查询和过滤系统,而文本分类正是实现这些系统所需的一项关键技术。 文本分类是指一个把自然语言的文本按其内容归入一个或多个预先定义好的类别的过程。由于网上信息数量巨大而且存在形式多样,因此传统的由专家进行手工分类的方法已无法满足现阶段应用的需要。自动文本分类是在给定的分类体系下,由特定的算法根据文本的内容确定与之相关联的类别。自动文本分类是人工智能技术和信息获取技术相结合的研究领域,是进行基于文本内容的自动信息处理的核心技术。 支持向量机是在上世纪末发展起来的一种基于结构风险最小化准则的分类学习机模型。它通过构造并求解目标函数来获得两类样本数据之间的决策超平面,以保证最小的分类错误率。从实际分类效果来看,支持向量机在解决小样本、非线性及高维的模式识别问题时是目前己知的分类器中效果最好的,而这些问题恰是文本分类问题所面临的困难。因此,支持向量机和文本分类问题有着良好的结合点。 虽然支持向量机的训练算法本身就可以克服特征词向量维数过高的问题,但针对文本样本的特征提取步骤仍是不可或缺的,这是因为当大量特征词与分类无关时,只会使支持向量机“过分适应于”训练样本而降低推广性能。此外,传统的基于词频统计的特征提取方法也无法体现词与词之间的相互联系。针对这一问题,本文的第二章将潜在语义索引和粗糙集特征提取结合起来,提出了一种在潜在语义空间利用粗糙集进行特征提取的方法,试验结果表明采用新方法提取特征可以明显改善支持向量机的推广性能。 在分类问题广泛应用的允许训练误差的高斯核函数的支持向量机中,核参数σ2和折衷参数C对于支持向量机的分类性能有着至关重要的影响。模型选择,即如何选择恰当的训练参数,一直是支持向量机研究的一个重要课题。本文的第三章对这一问题进行了分析,并提出了判断参数选择恰当与否的简化评价指标,并在此基础上提出了一种两步骤的选择恰当参数的方法。第三章的试验表明,简化计算方法可以快速而准确地计算推广误差评价指标,参数选择算法可以搜索到最佳的训练参数。 传统支持向量机最大的困难在于当训练样本数量较大时,支持向量机的训练时间较长。这是因为采用分解法时,训练复杂度与样本数量的平方成正比。如何降低支持向量机的训练复杂度一直都是一个棘手的问题,本文的第四章根据预选取支持向量的思路对上述问题进行了分析,将粗糙集的概念引入了支持向量的预选分析过程中。第四章提出的新算法选取两类样本的上近似集的交集作为支持向量的候选集,并对两类样本上近似集交集的一致性进行了证明。试验表明,训练样本的上近似集的交集可以代替全部训练集进行训练,从而提高训练速度。 支持向量机的基本模型是针对两类样本集提出的,在处理多类样本集的分类问题时,目前效果最好的方法是训练一系列针对两类样本的子分类器。尽管这种方法可以获得令人满意的分类效果,但其训练时间比较长。我们认为,在多数情况下,并不是所有的子分类器都值得训练,部分子分类器是冗余的。本文的第五章对训练子分类器的必要性进行了分析,并提出一种采用主动学习策略的多类别支持向量机,新算法按子分类器的重要程度逐渐训练子分类器。实验证明,这一算法可以在几乎不降低分类性能的基础上,显著减少子分类器的个数。 直推式支持向量机是直推式学习理论和支持向量机的结合,它是目前分类效果最好的支持向量机。但它的分类效果极其依赖于事先指定的正样本数量Np的选择。当Np与实际情况相差较大时,直推式支持向量机的分类性能甚至还不如普通的支持向量机。本文的第六章着重讨论了直推式支持向量机对Np的值过分敏感的问题,提出了逐个判定准则来调整测试集松弛变量的类别标签,从而使Np的值在训练过程中可变。实验结果表明,改进后的方法使直推式支持向量机不再对事先指定的Np的选择敏感,能稳定地获得较好的分类效果。 网页是带有特定结构信息并说明链接关系的文本,与纯文本相比,网页的信息量更大、样本与样本之间的联系更紧密,但也比纯文本分类问题更加难以处理,要考虑更多因素。本文的第七章在分析了模糊直推式支持向量机在网页处理方面不足的基础上,从超链接分析的过程和利用网页重要性信息这两方面对其进行了改进。基于网页数据的试验表明,新算法有更强的适应性和更高的准确性。 综上所述,本文的主要创新包括如下几方面的内容: 1.根据文本分类领域的特征,改进了留一错误的评价指标和模型选择算法,显著提高了模型选择的效率; 2.提出了基于粗糙集的支持向量预选方法,缩短了训练的时间; 3.针对多类别分类问题,提出了采用主动学习策略的多类别支持向量机,可以在几乎不降低分类性能的条件下,减少子分类器的个数; 4.提出了更恰当的直推式支持向量机松弛变量标签调整准则,从而能稳定地获得较好的分类效果。 此外,本论文还在特征词的提取方法和网页分类等方面进行了研究和改进,使特征提取和网页分类的性能都有所提高。
其他文献
本论文致力于研究CDMA无线蜂窝网定位服务实现的关键技术,探索定位系统实现的方式以及提高定位精度的方法。本文总结了T1P1无线信道模型的特点及其适用环境,提出了一种基于T1P1
随着国际互联网和无线通讯的迅速发展,图像被广泛应用于在各种多媒体服务中,图像压缩技术伴随着信息理论的发展和信息交流的需求而不断发展、成熟。图像压缩的基本理论起源于
云存储是在云计算概念上延伸和发展出来的一个新的概念,作为一种新兴的存储模式,其特有的优势使它得到众厂商、开源社区和科研机构的高度重视,并得到快速发展。越来越多的厂
由于城市交通拥塞现象及交通事故的日趋严重,交通监控系统的开发近年来引起了广泛的关注。正确的交通信息是进行交通监控的基础,因此交通信息数据的准确与否影响着对交通的管
特征提取是模式识别研究的核心内容之一;其基本过程是根据实际需要,定义一个函数映射,将数据从原始输入空间投影到一个新的特征空间,从而提取出感兴趣的信息。本文的主要研究
Geo PDF是一种新兴的存储地图的文件格式。Geo PDF地图以PDF文件格式为基础,除了存储文字和图像以外,还存储了图像所关联的地理属性信息,成功的解决了传统地图在易用性、便携
本文介绍了湖北省国税局开发的“网络和主机实时监控系统”,此系统可对广域网、UNIX服务器、重要WindowsPC服务器和湖北国税四类关键业务数据异地灾备,实现实时量化监控,并能进
上世纪90年代以来,随着计算机网络在应用中的日益普及,出现了众多各具特色的工作流产品。相对于工作流产品市场的繁荣,工作流的相关理论研究则显得有些滞后。特别是工作流建
作为Internet网络存在的核心,路由技术必然是网络领域研究的重点。人们对它的研究也一直没有中断过。针对骨干路由器面临的性能问题,人们提出了基于硬件的网络交换方案。另外
信息系统是一个组织运作的核心。信息系统的安全管理工作是一个动态循环演化的过程。风险评估作为其中的一个重要环节,为信息系统安全管理动态模型的持续改进提供了目标和要求