互联网新闻分类中特征选择和特征提取方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jcm917
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的快速发展,网络中的文本等信息、呈爆炸式增长。对互联网中的新闻文本信息进行分类可以快速提取出用户所需要的信息。因此,如何提高新闻文本分类的高效性和准确性,提供高质量和智能化的新闻文本分类服务具有重要意义。特征选择和特征提取是新闻文本降维的主要手段。常用的特征选择方法默认在均衡数据集上进行特征选择,而在偏斜数据上表现较差。除此之外,已有的文本特征选择方法往往存在一定的缺陷。例如,TF-IDF方法选取的是反映文本集合的特征,而没有考虑这些特征对类别的区分能力;互信息和卡方检验方法往往具有“低频词缺陷”的问题。在文本特征提取过程中,向量空间模型表示的特征向量具有高维性和稀疏性的特点,不能捕捉到特征之间的语义语法关联。针对已有特征选择和特征提取方法中存在的上述问题,以及文本数据普遍存在的类别样本不均衡问题,本文做了以下几个方面的工作:1.针对新闻文本数据集存在的类别样本不均衡问题,本文提出了两种新的基于方差的特征选择方法:1)基于类间概率分布方差的互信息特征选择方法;2)基于文档分布方差的TF-1DF特征选择方法。类间概率分布方差和文档分布方差是每个特征在不同类别中的词频和文档频率方差,该方差仅与类别样本特征有关,与不同类别样本数目无关。因此,本文所提方法能够有效地提取出“小”类别样本的特征,解决类别样本不均衡问题。实验结果表明,相比于已有特征选择方法,本文所提出基于方差的特征选择方法能够筛选出新闻热点词汇,提高新闻文本分类效果。2.本文在对互联网新闻热词的上下文规律进行统计分析的基础上,采用指数衰减模型改进Word2vec词向量训练框架,以提高词向量的精确度。原Word2vec训练框架认为上文对目标词预测的作用是线性衰减的,而自然语言中上下文对目标词的影响随着距离的增加快速减小,指数衰减模型更接近真实情况。实验结果表明,相比于原VWord2vec司向量训练框架,本文采用的基于指数衰减模型改进的Word2vec词向量训练框架可以训练出更加精确的词向量。3.针对经典向量空间模型在特征提取中的问题,本文采用词向量进行特征提取,将文本特征词词向量叠加所组成的向量作为新的特征向量。实验结果表明,在基于方差特征选择方法的基础上,特征词词向量叠加所得文本特征向量在文本分类中表现出良好的性能,能够进一步提高新闻文本分类效果。本文针对文本分类中已有特征选择和特征提取方法存在的问题,以及文本集中类别样本不均衡问题,以互联网新闻分类为应用背景,提出的基于方差的特征选择方法可以选出“小类别中的特征,提高非均衡新闻集的分类效果:基于指数衰减模型改进的Word2vec司向量训练框架,训练出更加精确的词向量;词向量用于特征提取时,能够在基于方差的特征选择基础上进一步提高新闻分类效果。
其他文献
教材是教师实现教学目标的重要手段,学生对教材内容的理解程度,直接关系着课堂教学效果.因此,教师应立足教材,帮助学生深入分析文本内容,使其逐步掌握语言知识和技能,从而实
期刊
数学课程标准指出,学生要“能结合具体情境选择适当的单位进行简单的估算,体会估算在生活中的作用”.学习估算的主要目的,是让学生用数学知识解决生活中的一些实际问题,这也
期刊
21世纪以来,移动通信技术飞速发展,智能手机与移动网络快速普及,改变着人们的行为习惯,也创造出新的需求。物流业也受到信息技术发展的影响,产生信息化、智能化需求。中国现
由传感器,微机电系统和网络三大技术融合而形成的无线传感器网络己成为当前国际上备受关注的,由多学科高度交叉的新兴前沿研究热点,可广泛应用于军事,国家安全,环境科学,交通
众所周知,农产品安全问题的本质是一个风险事件,特别是随着新技术在农产品生产中的应用,农产品的安全风险越来越大。而事实也充分证明,这种风险只有通过科学的手段才能加以识
采用不同圆机编织纬编架空添纱组织时成圈原理不同,面料差异很大,介绍采用普通圆机分别利用单成圈系统、双成圈系统、3成圈系统编织架空添纱织物的编织原理,以及详细的编织工
采用0.13 μm SiGe BiCMOS工艺,设计了一种工作在32~38 GHz的Ka波段有源移相器,采用矢量合成的方法实现移相功能.该移相器电路包括输入无源巴伦、多相滤波网络、矢量合成单元
Pseudo-capacitive mechanisms can provide higher energy densities than electrical double-layer capacitors while being faster than bulk storage mechanisms. Usuall
期刊
动漫艺术家在创作活动中,一直遵循动漫元素复用的原则,但是由于缺乏系统的技术支持,因而效率比较低。这其中的主要瓶颈之一就是未能建立统一的动漫元素表达模型和缺少海量数据的
学位