文本分类中受词性影响的特征权重计算方法

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:genglb119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】为提高分类准确率,引入词性改进特征权重计算方法,进而影响文本特征权重的取值。【方法】采用对比实验的方法,将本文提出的引入词性的特征权重计算方法与传统的TF-IDF方法分组进行实验。在引入词性的特征权重计算方法中,采用粒子群算法迭代计算最优词性权重。两组实验均采用SVM分类器进行分类。【结果】实验结果表明:改进的权重计算方法比传统的TF-IDF方法的分类效果更好,分类准确率在不同特征维度下都得到明显的提高,提高幅度在2-6个百分点。【局限】由于实验条件的不足,在使用粒子群算法寻找最优权重配比时得出的结果仅是接近最优解的配比,需要扩大数据规模与增加迭代次数才能得出更佳的权重配比。【结论】在文本分类当中引入词性能有效提高分类准确率,各词性权重大小的排序从高到低为名词、字符串、动词;结合词性的权重计算方法并不只适用于某个特定的语料集,还可以适用于一般的语料集。
其他文献
目的:为制定当归新型饮片质量标准提供参考。方法:对不同规格的当归新型饮片进行性状、水分、总灰分、酸不溶性灰分、浸出物检查,HPLC测定阿魏酸含量。结果:阿魏酸在0.0308~0
心理学上的峰终定律阐释了人对体验的记忆由高峰和结束时的感受决定。在互联网产品设计和服务中,用户体验研究中可以以相似的方式来明确消费者对产品体验的高峰和终点体验值
"青花"艺术在不同的时代,呈现出不同的风格和特色。主要阐述了我国早期"青花"艺术的特点,简要分析了当代"青花"所具有的民族特色。文化是朝多元方向发展的,服装作为最直接的
<正>习近平总书记在全国城镇化工作会议上指出,要让居民"望得见山,看得见水,记得住乡愁"。在当前城镇化进程中,对蕴含着逐渐消失的乡愁和农耕文明的传统村落,如何持续性地进
采用追踪研究设计,以小学生数学学习为例,考察新课程改革的实施效果。研究从学生对数学的基本理解与计算能力、复杂问题解决能力、数学交流与应用意识以及对数学学习的兴趣与
改革开放以来,中国妇女的家庭婚姻观念发生了巨大的变化,无论是在择偶标准、结婚动机,还是性爱观、生育观,都富含对传统婚姻价值观念的否定.
大学生道德教育与法制教育的有效结合,有利于道德规范和法律规则相辅相成地调整大学生的行为,文章简要分析了大学生道德教育与法制教育融合的客观基础,并从教育观念的变革、课程
柴油车尾气是空气颗粒污染的重要来源之一,其治理方法一直备受社会各界关注,针对近年来日益严重的颗粒污染问题,各国制定了严格的法规限制柴油车颗粒排放。柴油车颗粒捕集器(
主要是比较了盐酸贝那普利片以及我们国家三个国家原药的体外溶出度,评价溶出曲线的一致性。可以采用到桨法,溶解介质的体积为500毫升,转速为50转/分。溶出度分别以pH1.2磷酸
借助数字信号处理快速发展的潮流,自适应滤波作为信号处理的分支学科之一,在过去四十余年里逐渐发展壮大。自适应滤波器的“自我设计”功能是智能信息系统的本质特征,吸引了