基于语义与分类贡献的文本特征选择研究

来源 :西北师范大学学报:自然科学版 | 被引量 : 0次 | 上传用户:wergsdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统文本特征选择算法没有考虑特征的语义及特征与类别之间关系的问题,提出了一种结合语义和分类贡献的特征选择算法.利用LDA主题模型获取文本和词的表示,通过计算词与文本之间的语义相似度,获取词对文本的重要性.再利用Word2vec词向量模型获取文本类别特征,通过计算文本中的词与文本类别特征之间的语义相似度,获取词对类别的重要性,最后结合词对文本的重要性和词对类别的重要性选择分类贡献度高的词作为最终的分类特征.实验表明,该算法能够有效地降低文本特征数量,减少分类计算开销,降低噪声对分类的影响,提升分类效果.
其他文献
后进生是指思想行为、学业成绩、智力发展等方面存在比较多的问题和缺陷的学生。在不同的后进生中,存在着各自不同的原因:或是因为遗传形成的智商不高直接造成学习成绩落后;或是受家庭和社会负面影响形成不良习惯;或是与学校或者科任老师之间存在矛盾,导致学生产生逆反心理;或是学风不正,对待学习弄虚作假,敷衍了事或投机取巧;或是学习方法呆板,思维狭窄,学习成绩难以突破,等等。  在教育教学中,后进生是客观存在的,
在书声琅琅的课堂,人们似乎忽视了默读的存在。其实,如果你仔细研究一下《语文课程标准》,你会发现这样一句话:“各个学段的阅读教学都要重视朗读和默读。”再仔细研究,你会发现各个年段的默读要求是不一样的:第一学段(1~2年级)“学习默读,做到不出声,不指读。”第二学段(3~4年级) “初步学会默读,能对课文中不理解的地方提出疑问。”第三学段(5~6年级) “默读有一定速度,默读一般读物每分钟不少于300
随着企业管理模式和理念的不断发展,以及竞争压力的不断扩大,当代企业不断的对企业管理方式进行更新。人力资源管理就是在这种背景下诞生,并且已经被各个企业所引用,其对于企业健
人力资源是企业发展的基石,石油企业物资供应部门要想在新形势下实现更好更快发展,具备高素质人员是其实现发展的必备条件。本文着重论述了新形势下人员素质在石油企业物资管理
饮酒历来与人的兴致有关,高兴了喝酒,以酒助兴:愁苦了喝酒,以酒浇愁;闲来无事喝酒,消磨时间等。总之,酒的消费因风俗习惯、地理区域、气候条件以及经济状况,在世界各地不尽相同,少量或
随着电子商务在中国的蓬勃发展,农产品电子商务也作为一种全新的模式迅速成长。本文以“菜联网”为对象,从“菜联网”的现状、特点、优势及电子商务农产品需求现状等方面进行研
11月6日、7日。教育部“科学发展成就辉煌”喜迎十八大系列报告会第十四至十六场专题报告会举行。教育部职业教育与成人教育司司长葛道凯、中国联合圈教科文组织全国委员会秘
目的探讨运动治疗联合心理干预对慢性精神分裂症患者社会功能和治疗依从性的影响。方法将120例慢性精神分裂症患者随机分为研究组和对照组,每组60例,对照组患者给予常规治疗
本文从语源类型、使用频度和借词与固有词的对应三个方面描述了汉语新疆焉耆话的借词系统。文章还讨论了借词系统的形成与历史人文背景的关系、借词系统的运行和现时人文背景
企业物资采购过程中会遇到很多质量问题,这些问题主要体现在两个方面:物质自身的质量问题与供应商的质量问题。这些问题会给企业带来不利的影响,为了降低与消灭这些影响,必须要增