【摘 要】
:
互联网技术的飞速发展使得文本数据呈指数趋势增长,如何有效分析和利用这些数据,充分发掘其中蕴含的价值是文本大数据分析处理的首要任务,而这其中针对文本的分类处理是一个
论文部分内容阅读
互联网技术的飞速发展使得文本数据呈指数趋势增长,如何有效分析和利用这些数据,充分发掘其中蕴含的价值是文本大数据分析处理的首要任务,而这其中针对文本的分类处理是一个重要分支。信息检索、信息推荐、文本挖掘等大部分任务要以文本分类作为基础。尽管文本分类的技术提出已久,但由于过去数据量、学习模型和硬件设备的限制,在这个领域一直很难有大的突破。当前随着深度学习技术的发展,文本大数据处理正朝着一个高效率、高精度的方向发展。但是,伴随而来的还有更多的挑战和问题。虽然传统的文本分类技术已经初步成熟,但面对类别数量不平衡文本数据、流式文本数据等支持的还不够。另外,虽然如今可以收集到智能终端上的大量信息和数据,但这些数据大都是未整理的无标签数据。如何有效地利用这些无标签数据发掘出有价值的信息,依然还处于初步研究阶段。随着深度学习技术的成熟,文本的特征表示、文本的处理过程等也都出现了新的变化,如何发挥这些基于深度学习技术的文本处理方法的优势,更加充分地发掘文本的语义信息,也有待研究。本文针对文本词语特征表示不足、文本的无标签数据利用不充分的问题,主要做了以下的工作:(1)首先是针对文本的语义表示,提出了一个基于主题模型的主题向量表示方法,以此来补充word2vector的全局语义缺失的问题,基于变分贝叶斯推断的方法,实现主题模型LDA的参数估计,并根据LDA模型的“主题—词语”矩阵提取主题向量,便于下一步的文本分类。利用Tensorflow框架构建了基于神经网络的文本分类模型base1-CNN、base2-CNN、TE-1、TE-2,并对于主题分类和情感分类两个任务分别作了测试,实验验证了基于主题向量和词向量融合的神经网络文本分类方法不论在测试精度还是在收敛速度上,均取得了较好的效果。同时base2-CNN的效果也验证了主题向量只包含部分语义信息,存在语义信息缺失的问题,因而主题向量只能作为一种辅助的嵌入向量表示方法。(2)针对文本分类任务中含有大量的无标签文本,而不能充分利用其语义信息的问题,提出了一种基于word2vector的文本表示方法和卷积神经网络的文本分类器,实现了半监督的文本分类网络d-CNN。该网络同样是基于Tensorflow框架构建,利用无标签文本的“虚拟”标签信息和标签文本的标签对于两个CNN网络训练,并在顶层训练两个网络各自所占权重参数。这样,可以提升无标签文本语义信息的利用效率,有效提高文本分类的准确率。通过d-CNN网络在情感分类和主题分类任务上的测试结果表明,d-CNN模型较全监督的深度学习文本分类模型有着较好的效果。
其他文献
胰岛素受体(Insulin Receptor,IR)在胰岛素发挥其降血糖生理功能的过程中扮演着重要的角色。胰岛素与位于细胞上的胰岛素受体结合时,会引起胰岛素受体构象的转变以及引起胰岛素受体酪氨酸磷酸化修饰,进而激发一系列下游信号通路,最终使胰岛素可以发挥其功能。胰岛素受体β亚基上的1158,1162和1163位酪氨酸(Tyr1158/1162/1163)磷酸化修饰决定其酪氨酸激酶的活性;当此部位的
耐药菌的大量存在和传播,日益威胁公众健康和卫生安全,给临床、实验室检测和监测细菌耐药性方面的工作带来严峻挑战,亟需对病原菌进行快速的药物敏感性测试和细菌耐药机理分
随着全球经济的发展和人口的不断增长,人类对新能源、新材料的需求越来越旺盛,其中永磁材料对于一个国家的发展具有战略意义,尤其是像我国这样的稀土大国。稀土铁系永磁体以N
为解决工程图纸的规范性,论文以建筑工程图纸规范化质量评价需求为基础,研究集工程图纸信息管理、工程图纸规范化评价指标管理、在线评测和评测结果统计于一体的综合建筑图纸
乳化墨水是一种安全环保的墨水,溶剂采用油包水或水包油形成的混合溶剂,组分含水量大。乳化墨水的特点是润滑度低,书写手感好,安全环保。目前我国高品质的墨水和笔头都是依靠进口的,墨水与笔头的匹配涉及多个学科,其匹配技术复杂,匹配效果受墨水的特性和笔头的材料影响,是研发难点之一。墨水与笔头的匹配通常是通过工厂的试验进行匹配,缺乏系统的理论指导,耗时长,效率低。乳化墨水与笔头的匹配技术不够成熟,尚未形成完善
空腔壳状模型是一种形式简单但是被广泛应用的形状,通过调整模型的不同部位的厚度分布可以实现多种功能。为了避免手工迭代设计的繁琐过程,一系列的设计算法被相继提出,但是
随着信息时代人们视听消费方式的逐渐改变,电视电影等视频资源的数量快速增多,同时随着视频分析技术的不断发展以及人们对自动获取视频故事主线,人物等信息的需求也不断增长,
随着社会的发展和法治进程的建设,新型权利不断涌现的同时公民维护个人权益的意识也逐步加强。在实务中,行为人对自身权益维护的途径与手段多样却缺乏具体标准,由此导致同案
与已经商业应用化的Nb3Sn相比,Nb3Al不仅具有更高的临界转变温度(Tc)和上临界磁场(Hc2),而且高场下拥有极佳的临界电流密度(Jc)和优异的抗应变特性,还有和Nb3Sn相似的辐照敏感性,因此被认为是在高场应用下Nb3Sn的潜在替代物,特别是用于高于25T的磁场和极端的机械及辐射条件下,例如国际热核实验反应堆(ITER)的核聚变超导磁性系统、高能粒子加速器、千兆赫兹级别核磁共振(NMR)分
由于射频(Radio Frequency,RF)链路的广播性、频谱资源的稀缺性,导致RF链路极易遭受信号干扰,系统性能受到严重影响。水下无线光通信(Underwater Wireless Optical Communica