基于TF-IDF的文本分类系统中权重计算和特征选择方法研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:ferer1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种经典的基于VSM模型的权重计算方法,其算法相对简单,非常便于计算,应用较多。但该方法比较粗糙,容易导致特征空间高维稀疏。基于传统的TF-IDF特征选择思想,本文引入类别描述因子,基于类内、类间信息修正TF-IDF权重因子,提出一种包含类别信息的TF-IDF-CD(Category Description,CD)模型。该模型的TF部分含有特征项的类内频数信息,IDF部分含有特征项的类间频数信息,突出类别贡献大的特征的权重,抑制次要特征权重。最后通过文本分类实验,将其在偏斜语料和均衡语料下分别与NB、KNN等分类器结合进行文本分类实验,比较其与TF-IDF、CTD等几种方法的分类精确度。结果显示,TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF,在不同语料以及不同分类器下,其平均分类精度均有大幅提高,最低为14%,最高可达30%。相比性能较好的CTD,TF-IDF-CD与NB、SVM及DT结合,其平均分类精度均有1%~13%的提高;而在非均衡语料下,与KNN结合时其性能较CTD低2个百分点。TF-IDF-CD与对语料不均衡性较敏感的KNN结合时,其抗数据偏斜能力仍需改善。实验结果表明TF-IDF-CD特征选择方法有效,对TF-IDF的改进具有一定借鉴意义。
其他文献
期刊
TETRA数字集群移动通信系统是第二代专业移动通信系统,具有兼容性好、开放性好、频谱利用率高以及保密功能强等特点。由于其在指挥调度方面具有传统蜂窝网不可比拟的优势,近年
期刊
目前,网络在提高链路速率的同时出现了大量的新协议及新服务,而传统的网络设备一般采用硬件芯片或者基于纯粹的软件方案,很难兼顾性能与灵活性两方面的要求。于是,并行可编程的网
互同步作为一种重要的网同步方式,具有组网方式灵活、实现成本低、抗毁性强、可靠性高等优点,特别适合野战通信网使用。本文以野战通信网网同步需求为背景,对以互同步为基础,兼容
期刊
随着波分复用(WDM)系统的迅速发展,掺铥光纤放大器(TDFA)以其增益高、带宽宽、噪声低等优良特性成为目前S波段光放大器的重要组成部分。目前对TDFA的研究大多采用实验研究的方
期刊
本文介绍了以三菱 M16C/6N 系列单片机为基础、结合 CAN 总线和 USB 总线技术开发的CAN/USB 协议转换器,它为解决 PC 与现场设备远距离通信时存在的通信速率和通信格式的不协
期刊