基于特征权重算法的文本分类研究

被引量 : 0次 | 上传用户:daxian005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是在给定的分类体系下,由计算机根据文本的内容确定相关联的类别。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。当前,文本分类主要采用的是基于统计的向量空间模型,涉及文本预处理、中文分词、特征选取、特征权重计算、分类算法、分类性能测评等多个过程。其中,特征项权重的计算方法是基于向量空间模型的文本分类中一个重要问题,关系到最终分类的效果。传统的特征权重算法着重考虑频率和反文档频率等因素而未考虑特征词在文本中的分布及位置信息,本文研究了文本自动分类中的基于类分布信息及位置信息的特征词权重算法。主要工作如下:(1)概述了文本分类的基本概念、典型应用、国内外研究现状及存在的问题。(2)介绍了文本分类过程、向量空间模型、文本预处理、中文分词、降维技术、测试方法及性能评价指标。(3)分析了经典文本分类算法的原理、特点及性能。(4)在分析传统TF-IDF权重算法的基础上,综合考虑了特征词在类中分布区分度和处于文本中不同位置时位置区分度对文本内容的区分能力,提出了基于TF-IDF与类分布信息及位置信息的权重改进算法。文本分类采用K近邻分类算法,对改进的权重算法与标准算法进行了比较,实验结果表明改进的权重算法对分类性能有一定提高。(5)对文本分类技术在垃圾邮件过滤系统中的应用进行了研究。
其他文献
本文从现代文学的整体视野对小说中的流浪女性形象的变迁史进行细致考察,在此基础上界定流浪女性形象的特点:现代小说中以“家”或对于男性的情感依恋隐喻其生存困境,以流浪为反
从目前世界各国的巨灾分散机制发展过程中来看:一方面是传统再保险市场日趋饱和,可开拓空间越来越小,另一方面是巨灾保险市场上有着远远超过目前供给能力的巨大潜在需求和现
本文重点考察麦克米伦时期的英美特殊关系。1956年,苏伊士运河危机爆发,被英国视为外交基础的“特殊关系”出现裂缝并岌岌可危。但是,只要冷战格局仍在,英国就不可能与美国分
研究了不同光强对紫罗勒花青素含量、气体交换、叶绿素荧光特性及反射光谱的影响。结果表明:强光下紫罗勒叶片较厚,而弱光下叶片较薄。与弱光下生长的紫罗勒相比,强光下单位
研究了以牛奶、苦瓜、枸杞、脱脂奶粉为主要原料,并以阿斯巴甜和安赛蜜替代蔗糖来生产酸奶的最佳配方及工艺。结果表明,牛奶与0.010%的甜味剂(阿斯巴甜∶安赛蜜=1∶1)、1.5%
目前,随着新课程改革的进一步推进,传统的小学语文教学模式正发生着翻天覆地的改变。各个学校已经发现了传统的"灌输式"教学模式抑制了学生的创造性,不利于长远的社会发展,积
针对大型三排圆柱滚子转盘轴承原径向游隙测量结果离散性大、测值不准确、效率低的问题,采用内径千分表测量取代靠瞬间吊起工件引起千分表头抖动进行测量的方式,减小了吊车使
调查分析了国外市域快速轨道交通的线路运行模式,探讨了影响上海市域快速轨道交通线(R线)运行模式选择的主要因素,指出线路运行模式选择的主要依据是客流特点和功能定位,建立了
<正>民营银行起步晚,规模较小,抗风险能力较弱,当前民营银行面临着金融改革开放进一步推进,金融科技快速发展等一系列挑战。下一个三年我认为民营银行的发展将呈现百花齐放的
本文介绍了一种能对智能建筑弱电线缆的通、断、错接、允许传输的波特率、线路的阻抗、模拟信号衰减的性能进行测试的便携式仪器设计思路 ,讨论了用数模转换器 (DAC) ,而不是