【摘 要】
:
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k
【基金项目】
:
国家自然科学基金项目资助(61563009);贵州大学创新基金项目资助(研理工2017013)
论文部分内容阅读
针对自然语言文本集的预处理和分类问题,将词频统计方法(TF-IDF)引入到关键词提取(TextRank)算法中,并结合word2vec词向量化方法获得基于关键词的改进型文本向量化算法;进而,在k近邻算法中引入k值校正规则,并与该改进型算法结合获得文本集的改进型分类算法。利用格式和类别多样、数据量较大的文本集数据进行实验,结果表明,通过该方法可有效实现文档深层语义特征与浅层词频统计特征的融合,提取的文本关键词能较好表征文档的内容和类别,证明了获得的分类效果具有明显的优势。
其他文献
小学生的年龄都还很小,正处于能力和思维形成的启蒙阶段,对新知识的接受和掌握能力还不能达到正常学生的要求。每个学科都会有相应的教学目标,教师需要在规定的时间内完成大
历数诺贝尔文学奖的历史,人们所熟知的“诺奖遗珠”村上春树并非评奖史上最长的陪跑者。曾经有作家21次获得提名,直至去世,也未能领到这个奖项。这个人,就是二十世纪英语文学
文章在分析广西甘蔗产业发展概况以及提升广西甘蔗产业的重要性和紧迫性的基础上,指出了广西甘蔗产业发展中存在的主要问题,提出了加强良种研发和推广;大力发展蔗糖产业循环
小学语文教学是让学生初步学习和掌握语文知识,了解汉语语言悠久的发展历史。语文知识的学习和应用,是一个不断积累不断训练的过程,在这个过程中,我们不会看到特别明显的教学
从20世纪开始,越来越多的人意识到,贝多芬的晚年作品是该作曲家最伟大的艺术结晶,其晚期风格是他最伟大的艺术创造。贝多芬的晚期创作不仅达到了他个人的艺术顶峰,而且也标志
没有人会仅以“间谍小说”这一类型小说概念去定义勒卡雷的作品。$$这个曾供职于军情五处、六处的“过来人”、冷战时期英国情报系统和国际政坛的亲历者、拒绝“布克奖”的英
文章介绍了国外常用的6个成人依恋测量工具(AAI、ASM、RQ、AAS、AAQ和ECR)以及国内对国外成人依恋量表的试用和修订现状,并且对当前成人依恋测量中存在的争论进行了讨论和展
PPP项目在不同语境下存在不同的安排和解读。在中国语境下,国有企业作为社会资本参与到PPP具有一定合理性。但从实际落地情况来看,目前出现的“国进民退”、“国有资本热、民营
对BOPPPS教学模式的作用和理论基础等做了相关介绍,并以"功能关系"新授课教学为例,探讨了该模式中6个环节的具体实施情况和注意事项。
目的资料消费者对转基因食品的认知态度以及消费意愿。方法采用问卷星软件设计调查问卷随机选取157名襄阳市消费者进行调查并统计分析结果。结果73.25%的消费者担心转基因食