【摘 要】
:
针对在大量高维样本集下KNN算法的分类计算开销大、效率低的问题,提出了一种基于TextRank和TF-IDF的文本分类算法。首先通过TextRank算法获得文本的候选关键特征,并选择权值
【基金项目】
:
海南省自然科学基金项目(617160)
论文部分内容阅读
针对在大量高维样本集下KNN算法的分类计算开销大、效率低的问题,提出了一种基于TextRank和TF-IDF的文本分类算法。首先通过TextRank算法获得文本的候选关键特征,并选择权值较大的特征作为最后的文本关键分类特征,实现所有文本文档的维度缩减,最后采用基于TFIDF特征权值计算方法实现KNN分类。实验结果表明,此方法能够有效地减少文本特征,降低文本向量维度,提高分类效率和分类性能。
其他文献
农业劳动力的转移不仅是劳动力产业结构调整的一个重要内容,更重要的是关系工业化、城市化乃至整个国民经济发展的大问题。在加快改革、开放,大力发展社会主义市场经济的形势
目的:观察针刺对窒息脑瘫幼鼠的治疗作用并探讨其神经生化机制.方法:7日龄新生大鼠随机分为针刺组、模型组、假手术对照组.结扎左侧颈总动脉并入8%O2及92%N2的缺氧箱建立窒息
目的探讨湖北省襄阳市南漳县新生儿神经管畸形(NTDs)高发的危险因素,为有效控制和降低该地区新生儿NTDs发病率提供科学的参考依据。方法采用1∶1配对病例对照研究方法,选取20
保育猪刚断奶,对周围的环境和事物都不太适应,这就会引发保育猪出现多种疾病。提高饲养员们的饲养管理技术水平是养好保育猪的关键所在。
黄河内蒙古段地处黄河流域的最北端,由于特定的地理位置、河道形态和水文、气象条件的组合,几乎每年都产生凌汛现象,所形成的灾害危害巨大,因此防凌历来是防汛部门的重要工作任务
职业教育是当今世界各国人力资源开发、提升国家竞争力的一项不可或缺的手段。英国职业核心能力概念的提出及研究为世界职业核心能力的发展开发了一个全新模式。本文从核心能
南社的词创作在清末民初的文坛有相当影响,而他们的史词则更值得注意。南社史词的焦点集中在对历史的感触、对时事的关注以及对传统文化的忧虑,这种以“觉世”为目的的文学,尽管
根据普通车床进行经济型数控化改造的技术要求,提出了车床改造的设计方案和工作原理,对改机床的数控装置提出了以80C-196为处理器的设计方案。完成了数控装置的系统配置。对机
针对同步去除与富集磷酸盐溶液的问题,研究了在低磷环境和低磷高磷交替环境下悬浮填料生物膜反应器的除磷能力和释磷能力,采用扫描电子显微镜(SEM)和高通量测序对第0、45和95天
探讨TBL教学法在高职护理专业外科护理学教学中的应用。TBL教学模式能明显提高学生的学习主动性、团队合作精神和运用知识能力。