用于文本分类的特征项权重算法改进

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:ak19820701
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。
其他文献
“嘉庚建筑”指的是陈嘉庚先生20世纪20至60年代建于福建厦门集美学村和厦门大学的具有中西合璧特征的建筑物。从建筑形式上来说,嘉庚风格建筑既具闽南红砖民居特征,又有西洋
敦煌石窟装饰图案中,几何图案是重要的类别和组成部分。本文主要研究出现在敦煌早期和晚期石窟中的几何图案,分析它们在构成、造型、色彩、装饰效果等方面的特点,并着重从建
中国剩余定理是我国古代数学家为世界数学发展做出的巨大贡献,其数学思想在近代数学、现代密码学以及日常生活中都有着广泛的应用和影响。文中主要讨论了中国剩余定理在密码
农村金融通过影响资本的边际生产率、影响储蓄率和影响储蓄向投资的转化效率对农村经济发展产生作用,基于内生增长模型和四维向量自回归模型对1978—2010年我国农村金融运行
在电信业务IP化趋势推动下,传送网承载的业务从以TDM为主向以IP为主转变。分组传送网(PTN)正是IP/MPLS,以太网和传送网3种技术相结合的适合分组传送的下一代传送网技术。在当
通过分析汽车产品销售时序的特性引入组合预测理论,提出了一种改进的变权重组合预测模型并给出了变权重系数的求取方法。然后针对小样本、多维、多峰、非线性的销售时序特点,
蚁群算法是一种新型的启发式模拟进化算法,为求解各种复杂的组合问题提供了一种新的思路。虽然蚂蚁个体没有智能,但群体蚂蚁可以通过信息素(pheromone)进行互相交流进而协调
为降低Web应用开发的复杂性和难度,文中作者深入分析了当前主流的Web系统开源框架Spring MVC和RIA技术Extjs,从Web应用的表现层入手,提出了一种高效整合二者的方法,搭建出基
运用重标极差分析方法(R/S分析法)、消除趋势波动分析(DFA方法)以及多重分形消除趋势波动分析方法(MF-DFA方法),对我国螺纹钢线材市场收益率序列进行实证研究。结果表明:我国
人口老龄化问题是当今社会面临的严峻问题之一,相比于人口老龄化的速度,我国关于老龄产业的学术研究起步晚,成果较少,且微观分析和定量分析不足;应强化关联性研究,细化和深化