基于深度学习的短文本分类算法研究及应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:xiaojing795130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的快速发展,短文本信息呈现出爆发式增长趋势,对短文本分类的研究也越发的深入。同时,短文本信息的增长导致不断出现新领域数据,存在传统机器学习算法无法及时对新领域数据建模分类的问题;短文本信息多样化的发展导致传统的单标签分类已经不能满足现有的多标签数据,存在传统机器学习算法无法学习到多标签之间的依存关系的问题。随着深度学习技术在图像处理、语音识别、对话生成等领域取得了优异的成果,深度学习模型展现出其层次化特征提取方面的优势。本文对短文本数据进行挖掘与分析,在研究深度学习模型卷积神经网络和长短时记忆网络原理的基础上,利用深度学习技术对目前短文本分类存在的问题进行研究并应用。本文的主要研究内容如下:(1)针对传统机器学习算法无法及时对新领域数据建模分类的问题,本文提出基于深度迁移学习的短文本单标签分类方法。利用深层卷积神经网络与实验提取相似领域与目标领域的通用特征,并迁移到目标领域中训练分类器,解决新领域数据标注不足而无法训练分类器的问题,同时提高模型的泛化能力。(2)针对传统机器学习算法无法学习到多标签之间依存关系的问题,本文提出基于序列生成模型的短文本多标签分类方法。所提出的序列生成模型由编码器和具有注意力机制的解码器构成,基于先前预测的标签再预测下一个标签,学习标签之间的依存关系,解决短文本信息不足而无法预测多标签的问题。(3)本文将前两点结合,通过互联网构建可交互界面,设计并实现应用于实际场景的基于类别先验知识的人民调解案例推荐系统。
其他文献
<正>~~
会议
随着经济的快速发展,人民生活水平不断的提高,饮食结构发生了很大改变,尤其中老年高尿酸血症(Hyperuricemia,Hum)的发病率及其与伴发代谢综合征有着密切的相关性,越来越引起临床的重
针对永磁发电机气隙磁场不可控的缺点,研究了降低永磁发电机电压调整率的方法。采用等效磁路的方法合理定性分析了增加气隙长度、永磁体磁化长度以及槽口宽度对电压调整率的
【目的】通过结晶紫半定量法、扫描电镜、激光共聚焦显微镜检测鲍曼不动杆菌(Ab)生物膜,PCR法检测生物膜形成相关基因,探究多粘菌素B、氨溴索对Ab最低抑菌浓度和生物膜最低清
会议
金属拱型波纹屋顶是一种新的拱型薄壳结构,得到了较为广泛的应用,但其理论研究还中够成熟和深入。1997年,武汉工业大学结构试验室对武汉钢铁公司开发的18M跨W666金属拱型波纹屋顶的承载力和
在采用SRAM作为数据存储器的数据采集系统中,由于对存储器操作时序或SRAM本身工作机理的原因,在电源通断电的过渡过程中常会出现存储器中数据被改写的现象,本文将就这一现象
<正>目的本文通过分析突发性耳聋伴眩晕患者的VAT结果,探讨其特性及成因,为临床上突发性耳聋患者的前庭系统的功能评估及前庭康复等方面提供可靠有效的依据。方法收集2009年3
会议
PPP模式的推广运用是我国经济结构化调整,社会转型升级、新型城镇化建设的助推器,是重大投融资体制改革。然而,由于PPP项目投资额较大,投资周期长、执行过程中变数较多,相关
随着我国城市建设的迅速发展,天然砂资源逐渐减少,以及环境保护的要求,人工砂的使用势在必行。如何保证人工砂的质量,确保混凝土的配合比达到设计要求,满足施工要求。本文主
研究证实:蜜蜂和果蝇具有良好的学习记忆能力。利用自主改良的研究装置对另一种具有强大生存本能的双翅目昆虫——巨尾阿丽蝇(Aldrichina grahami)在自由状态下电击回避学习能力