基于关键词相似度的短文本分类方法研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:h9501oney
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机SVM作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果平均提升约6%,从而验证了该框架的有效性。
其他文献
<正>2007年1月,国家发展和改革委员会制定了《煤炭工业发展"十一五"规划》,指出"十一五"期间,"煤矿建设坚持‘整合为主、新建为辅’的原则,全面整合、改造小型煤矿",提出了煤
目的评价TG联合FPG筛查糖尿病的应用效果。方法随机抽样选取北京平谷区26~76岁的3579名无已知糖尿病人群。采用Logistic回归分析FPG-TG联合因子。采用受试者工作特征曲线(ROC)
周斌(凤凰出版传媒集团总经理):“十二五”期间,凤凰集团将数字化战略列为了重要的企业发展战略,大规模推进数字化建设工作。经过“十二五”的数字化建设工作,凤凰集团拥有了一支专
报纸
文化产业的发展不仅具有重要的社会价值,也具有重要的经济价值,并成为国民经济的主导产业。本文通过分析泰安市文化产业的发展现状,在层次分析法的基础上,探讨泰安市加快发展
近年来,我国数字阅读量和比例呈现逐渐增长趋势。中国音像与数字出版协会发布的《2015年度数字阅读白皮书》披露,2015年,中国数字阅读用户规模已经达2.96亿,网民数字阅读的使用率
报纸
黑格尔在《法哲学原理》中论述的“德性”是伦理的重要形态之一,即“德毋宁应该说是一种伦理上的造诣”。黑格尔从伦理的普遍性出发,主要从德性的实体性、向善的价值追寻以及对
一、有关文献简述英国应用语言学家 S.P.Corder 于1967年首次提出了“内在的大纲”(built-in syllab-us)假设,认为外语学习者的语言发展可能遵循一个内在的顺序(Corder,1967
停牌制度是国际通行的股票市场规范手段之一,作为一种重要的市场价格稳定机制,被全球证券市场广泛应用。对于被停牌的股票而言,停牌的时间、公告内容和其传递的信息性质、停牌持续期间的长短、停牌后是否被摘牌、复牌的时间和方式等因素都会影响投资者的交易行为。获得股票停牌信息最直接就是投资者对股票的停牌公告解读,故停牌公告的内容长短及文本的情感等,直接对股票复牌后的价格波动和长期走势具有影响。本文以上市公司的停
农村卫生所是三级医疗卫生服务体系的“网底”,在农村防病治病第一线发挥着不可替代的作用。为全面掌握我市农村医疗卫生工作现状,笔者近期深入福安市卫计局及赛岐、甘棠、下白
报纸
太平洋岛国论坛将于本月中旬在图瓦卢举行。南太岛国的某些前殖民宗主国在会前动作频频,“工作”繁忙。只是它们并非急岛国民众之所急,想岛国民众之所想,而是试图以某种手段让岛
报纸