文本分类算法中词语权重计算方法的改进

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:miskiller
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自动文本分类中,TFIDF公式是常用的词语权重计算公式。该方法简单易行,但仅仅考虑了特征词出现的频率,而忽略了特征词对区分每个类的贡献。针对这个不足,该文提出了TFIDF-CHI,来修正各个特征词的权重,重新调整每个特征词对各个类别的区分度,并用KNN分类器来验证其有效性。实验证明该方法优于原来的TFIDF算法,表明了改进的策略是可行的。
其他文献
eBay案是近年来美国专利制度改革中的重要案例,美国联邦最高法院通过此案重树了要件检验原则,对美国的专利救济制度做出了重大的调整。文章介绍了eBay案的案情,比较了eBay案前后
糖尿病合并冠心病患者存在微血管病变及心肌代谢紊乱,可发生广泛心肌坏死,甚至骤发心力衰竭和心律失常。对此类患者的护理应注意血糖调节、情绪调控及饮食控制,有效预防冠心病不
为保证工件测值的准确、可靠,应制定合理的量具检定周期.检定周期E与量具允许磨损极限A、被测工件制造公差B和量具每天的磨损量C有关,其通式为E≈(A/C)干D。当A/B≈0.1时,修正系数D=0;当A/B>0.1时,用“-”号;当A/B<O.1时
通过文献资料法,总结了国内外篮球体能训练中的耐力素质的生理研究成果,结合篮球运动的特点,对篮球运动员的专项耐力生理生化的基础、评价指标、恢复进行研究分析,为篮球专项
随着社会的不断进步和课程改革的不断深入,各种现代化的教学手段在农村中小学的运用范围也逐渐广泛,而多媒体作为现代化教学手段的一个集中体现,也已深入人心。日常教学、公开课
<正>编者按:2014年上半年,在广西壮族自治区人民政府副秘书长、自治区人民政府发展研究中心主任黄洲的指导下,自治区政府发展研究中心课题组深入广西10多个国家级重大园区就
<正>上接2017年《中国制笔》第二期第43页5.圆珠笔商业大战1945年,Eversharp公司和Eberhard-Faber公司收购了阿根廷比罗公司的独家权利,之后,EberhardFaber公司又将其股份全
在分析长三角地区在长江经济带战略实施过程中所承担的历史重任及面临的机遇基础上,本研究综合考察了长江经济带战略对长三角一体化的影响。研究表明,参与长江经济带战略有利
在结构力学的学习过程中,绘制弯矩图是基本功,属于重点考查内容,也是结构内力分析的起始性关键环节。超静定结构的弯矩图比较复杂,严重影响了学生对基本内容的理解和掌握。文
3D NAND Flash制造工艺的快速发展,在提高存储密度降低成本的同时,也带来了新的存储特性。对3DFlash存储特性的研究,有利于其进一步的应用和发展。采用S281芯片为控制芯设计