快速文本分类研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:yyagan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网上文本信息的迅猛增长给文本分类的精度与速度提出了新的标准与挑战。这就要求文本分类在提高精度的同时,还要进一步提升训练与分类速度。为了面对时代的挑战,作者对快速文本分类技术进行了探索和研究,取得了一定的成果。本文首先介绍了文本分类的发展概况和文本分类过程中的相关技术,重点介绍和分析了文本表示、分词方法、特征选择、和常用的分类算法等,为后续章节的研究提供了理论和实验基础。随后,概括总结了现有快速文本分类技术及其方法,包括索引技术、样本裁减技术和降维技术,并重点介绍了降维技术的理论和方法。最后,本文提出了一种基于边界可信度相似的快速文本分类算法和在其基础上改进的基于类别分布特征的快速文本分类算法,依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。
其他文献
程序设计语言考试中的自动化试卷评分技术因其涉及多方面的理论知识已经成为一项非常有意义的研究课题,但目前该领域,实用性好而且功能健全的系统很少。在基于程序理解和语义
当前关联规则挖掘存在两个问题,第一是挖掘频繁项集效率低,第二是生成规则的数量和质量问题。针对这些问题,对基于FP-tree最小无冗余关联规则挖掘方法进行了研究,主要研究工
软件复用是近年来国内外软件界研究的热点之一,它能大幅度提高软件质量和生产率,降低软件丌发和维护的成本。基于构件的软件开发(CBSD)是软件复用的一种有效形式。而有效的构
本文的主要目的是系统详尽的分析和研究WTLS协议的安全机制,通过深入分析WTLS协议的流程,进而发现其中存在的缺陷,提出相应的改进意见,以期不断的完善WTLS的安全保证,满足当
近年来,随着网络技术的发展,安全问题越来越引起人们的关注。根据各种安全技术和应用的需求,人们提出了许多加密算法。其中RSA体制被认为是公钥密码体制研究的一个标准模板。
面对激烈的市场竞争,钢铁企业需要加强自身的建设,从产品、工艺、生产设备以及生产管理方面来提高企业自身的竞争力。为解决缺乏有效的生产管理和生产调度所引起的管理失控、
移动代理技术是一种新型的智能分布式技术,其自主性、移动性和智能性的特点正好满足网络管理的要求,因此将移动代理应用到网络管理系统具有很好的研究意义。本文分析了国内外
随着卫星通信与遥感技术的飞速发展,人们获取的空间数据量日益增多。如何高效地从大量的空间数据中提取出有用的信息,对空间数据挖掘技术提出了挑战。空间聚类作为是空间数据
基因芯片技术的迅速发展产生了海量的基因表达数据。如何分析和处理这些数据,从中提取出有意义的生物学信息,已经成为后基因组时代的研究热点。聚类方法是目前基因表达分析研究
雷达是现代战争中军事信息系统的传感器,如何提高雷达的抗干扰能力和生存能力成为现代战争环境中雷达所面临的紧迫问题。电磁波的广泛应用导致现代战争中出现了电子对抗,并且发