基于特征扩展的短文本分类

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:cau_hechun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着各大社交网络平台如微博、微信,以及各种各样的电子商务平台如淘宝、京东的飞速发展,短文本作为信息的一种载体,越来越受到人们的关注。如何从抽象的文本特征中得到结构化的数字特征,并能对其内在含义进行分类,已经是自然语言处理方面的一个关键问题。本文主要设计了一个基于深度学习的短文本分类方法,对如何从文本进行有效的特征表示和特征提取来提升分类效果进行了研究。首先,本文详细介绍了短文本分类的具体流程,针对每个环节简单介绍了在深度学习方法引入之前的常见的几种方法,以此为基础,概述了深度学习方法在处理短文本分类问题上的优势,并阐述了常用于短文本分类的深度模型,并对各个模型的特点进行了分析。为后续本文所提方法奠定了研究基础。其次,为了能更好的得到分类的结果,本文提出了一种联合卷积神经网络(Convolutional Neural Network,CNN)和递归神经网络(Recurrent Neural Networks,RNN)进行特征提取的方法。在该方法中,输入层首先将文本中的单词映射到词向量中,然后分别经过CNN和RNN进行特征提取,并在特征融合层将两种特征加权融合,得到最终特征表示用于分类。本文在7个数据集上对单一特征提取和联合特征提取分类能力的对比实验,此外,还探索网络参数设置对模型性能产生的影响,最后在其中常见的2个数据集上和近几年处理短文本分类任务的方法做了比较,结果表明了本文提出方法的有效性。再次,针对短文本分类中的情感分类问题,本文提出了一种基于频率-逆文档频率的情感特征表示方法,并结合主成分分析算法对两种特征表示字典进行融合。该方法在原有的语义特征的基础上,增加了情感倾向特征用于后续的特征提取和分类。通过对比实验,在3个数据集上分别用不同的特征提取方法下完成分类任务,最终,应用了情感特征表示的算法的分类准确率都超过了只使用语义特征表示的分类准确率,证明本文方法可用性。
其他文献
LMDI指数分解法是一种完全分解分析方法。文章运用LMDI分解法实证分析京津冀区域C排放的驱动因子:能源强度、能源结构、产业结构、经济发展水平、人口规模,并定量分析出前三
在经济稳定发展的背景下,工业转型、制造业产业结构升级成为新的时代主题,国内各大企业也将发展重心放在扩大规模、结构升级和提升效益三个方面,部分公司逐渐从原先的专业化
目的 研究气调处理对常见病媒生物德国小蠊的杀灭效果。方法 将748只德国小蠊成虫随机分为50个实验组和1个空白对照组,置于持续通入不同温度99.99%氮气和空气的试验容器中
<正>TNM分期以肿瘤所侵犯范围为依据来判断肿瘤演变趋势,没有考虑机体应答反应对肿瘤发展的影响。TNM分期受到的挑战是,同一临床分期的患者的预后也存在明显差异。肿瘤免疫分
从工作面产量、日推进度、参数、主要设备等方面阐述了我国综采的配套技术发展情况,并从我国综采工作面设备可靠性、自动化水平、关键部件性能等方面阐述了与国外的差距,展望
蒙医妇科学是蒙医学的重要组成部分,是临床优势明显的专科之一。蒙医妇科学的临床治疗除了用药内服以外也有很多的传统外治法应用于临床。为了更好的研究和发掘蒙医妇科临床
该文分析了煤矿机电运输事故多发的原因,提出了控制事故频发的对策。
目的:通过对精神科护士心身健康状况进行调查,以了解精神科护士心身健康状态,并提出应对措施。方法:本研究利用问卷的方法对本市精神科与综合医院普通科室的145名护士进行调
<正>国家、地区经济和社会发展的第十三个五年规划,即"十三五"规划的制定工作在各地陆续开始了。这段时间笔者多次被邀请参加一些座谈会、研讨会,探讨"十三五"期间的一些相关
农产品供应链中资金短缺引发了我国部分农产品无人收购的"卖难"问题,文章在分析农产品供应链内部资金需求特征的基础之上,利用供应链内部融资来解决资金短缺问题,通过分析农