高性能文本分类算法研究

被引量 : 81次 | 上传用户：xusir99

【摘要】

：

因特网上的文本信息的爆炸式增长给文本分类的精度与速度提出了新的标准与挑战。这就要求文本分类在提高精度的同时,还要进一步提升训练与分类速度。为了面对时代的挑战,作者

【作者】

：

谭松波

【发表日期】

：

2006年01期

【关键词】

：

特征选择特征提取文本分类文本挖掘机器学习信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

因特网上的文本信息的爆炸式增长给文本分类的精度与速度提出了新的标准与挑战。这就要求文本分类在提高精度的同时,还要进一步提升训练与分类速度。为了面对时代的挑战,作者从特征选择与学习算法两个角度展开了深入的研究,取得了一系列突破性进展。作者从基于分辨矩阵的粗糙集属性约简中受到启发,提出了一系列基于粗集理论的文本特征选择算法,即DB1、DB2、LDB。实验结果表明,DB2与LDB极为稳定,达到了与信息增益相当的精度;当特征数较少时,DB2与LDB的精度要明显高于信息增益。同时,在时间上也具有相当的优势,DB2与LDB的时间代价与文档频次、互信息、CHI统计大体相当,但明显低于信息增益。“没有免费的午餐定理”表明:任何一种模式分类算法都不存在“与生俱来”的优越性。换句话说,所有分类器都存在一定程度上的“分类器偏差”。原因很简单,因为所有分类器都建立在某种假设(模型)之上。通常,这个偏差会导致训练集与测试集错误率增大。很自然地,作者就考虑采用训练集错分样本来在线修正分类器模型。这便是拉推策略的基本思想。作者将拉推策略应用到三个基本的分类器,即中心法、贝叶斯、最近邻,于是得到三个修正的分类器,即RCC、RNB、RKNN。其中RCC的性能最为卓越。实验结果表明算法RCC取得了逼近SVM的分类精度,但运行时间需求却与问题规模成线性关系,因此实际运行时间要远远低于SVM。但是,拉推策略只是降低了经验误差,还没有有效地降低推广误差。作者的一个非常直接的想法就是,不但要求训练样本与正确类别的相似度大于所有与其它类别的相似度,而且要至少存在一个间隔,即近似Margin。算法的具体做法就是,不但对误分样本要修正相应类代表,而且对Margin较小的样本也要修正相应类代表。实验结果表明该算法既能降低训练集误差,又能在一定程度上降低推广误差。并且,分类质量要比拉推策略高出1个百分点。考虑到层次化分类的实用性与有效性。作者将拉推策略推广到层次化分类。作者给出了两种将拉推策略推广到层次模型的方法。其一是选取整棵树进行拉推修正。其二是选取每个非叶子节点进行拉推修正。实验结果表明,层次拉推策略的分类质量与非层次拉推策略基本相当,但运行时间上具有明显的优越性。概念索引采用类中心作为压缩空间的坐标。但是,简单地采用类中心来代表一个类别,往往受到类中样本分布情况的影响。因此,为了提高类中心的表达能力,作者借助于拉推策略来修正类中心。然后再把修正的类中心作为压缩空间的坐标。实验结果表明,修正的概念索引在精度上要明显优于普通的概念索引。同时,修正的概念索引在与SVM分类器的兼容性方面表现得更为出色。

其他文献

对跨国公司财务战略的研究

随着我国贯彻“走出去”战略,我国的跨国公司将不断增加。从世界范围来看跨国公司的发展也非常迅速。但是目前对跨国公司的研究主要是其形成和发展理论,对财务战略的研究也没

学位

跨国公司财务战略外部环境内部环境

南美白对虾养殖成功经验浅谈

<正>绍兴市柯桥区滨海经济开发区地处浙江省东北部,属亚热带季风气候区,年平均气温16.5℃,地理环境优越,适宜于南美白对虾的生长发育,自2000年开始开展南美白对虾引进养殖试

期刊

南美白对虾饲料系数水车式增氧机经验浅谈

典型湿地生态系统碳蓄积与碳循环模拟

湿地是四大陆地生态系统之一，了解和掌握其有机碳的蓄积状况以及整个生态系统碳循环特征是全球碳循环研究的重要基础，也是全球气候变化研究的重要内容之一。本文以三江平原湿地

学位

碳循环湿地生态系统有机碳密度分组碳蓄积模拟模型

经济全球化下的中国大豆产业：价格、供给与贸易

在全球化背景下，中国大豆产业几乎完全市场化。虽然近年来，我国大豆生产有所发展，主要体现在大豆种植面积略有恢复，大豆总产量稳步提高。但由于消费增长速度远远大于生产增长速度

学位

大豆产业价格市场整合生产效率贸易选择

中学英语教学中的德育渗透研究

百年大计，教育为本；教育大计，德育为先。多年的教育实践证明：做好青少年的思想教育工作，对青少年全面素质的培养和学校的整体工作具有积极的导向作用。本文结合笔者多年从事中

学位

德育渗透英语教学普通中学

上市公司资本结构的绩效分析——基于国有上市公司与民营上市公司的比较

资本结构的绩效一直是学术界和实务界所关注的问题。本文基于国有上市公司与民营上市公司的样本数据,在深入探讨资本结构对上市公司业绩影响的同时,重点比较了国有上市公司与

期刊

资本结构国有上市公司民营上市公司

绿色信贷对地区绿色技术创新的影响研究——基于城市商业银行的实证分析

本文基于二十所城市商业银行2008-2017年度的数据,从政策背景,理论机理和实证层面分析了城市商业银行的绿色信贷对地区绿色技术创新的影响.研究结果表明:绿色信贷对绿色技术

期刊

城市商业银行绿色金融绿色信贷绿色技术创新

英语为二语写作中的语篇和句法迁移

本文将回顾语言迁移这一广泛话题,并对英语为二语的大学学生的英语写作作语篇和句法层面上的语言迁移的经验性研究。语言迁移是语言学习者所感知到的语言之间的差异或共同点

学位

句法特征语言迁移syntacticlearner关系从句writing语言学习rhetorical文化图式语篇模式

微课与“多媒体技术”课程教学改革

在高职院校教育教学中,传统教学资源利用率低、使用不方便已成为课程教学改革的重要"瓶颈"之一,随着移动社交媒体的日渐流行,微课作为一种新兴的教学资源,在"多媒体技术"课程

期刊

微课多媒体技术教学改革

贫困大学生消费行为的社会学研究

本研究运用问卷调查法、结合观察法，立足于描述贫困大学生的消费行为特点、消费类型与消费行为的关系以及贫困大学生资助体系的现状。消费行为部分。受消费者角色期望的影

学位

贫困大学生消费行为消费者类型

高性能文本分类算法研究

与本文相关的学术论文