面向依赖性和稀疏性的多类标文本分类序列生成模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunnymurder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网中,文本标签的准确性影响了检索速度,而标签的准确性取决于分类算法的性能。在实际场景中一篇文章同属于不同的标签,因此多类标文本分类的准确度决定了互联网用户的体验感。但目前已有的算法在处理多类标分类问题上存在局限性,因此设计高效准确的多类标分类算法具有很大的实际意义。多类标文本分类与传统的单类标文本分类任务相比存在两个难点:一是文本特征稀疏,现有模型在处理高稀疏数据准确度会降低;二在训练过程中,类标存在依赖性,以往的算法往往会忽略该特点,导致模型泛化能力弱。为此,从以上两方面展开研究:针对文本特征稀疏性,采用了word2vec模型进行建模。通过无监督的学习,利用上下文预测当前词,使得隐藏层的神经元能够学习到每个词的语义信息,从而解决原始文本特征的稀疏性问题。由于原始模型的计算复杂度大,对该算法采用了层级softmax进行加速。从模型的理论上,通过最大似然估计法,将问题转化为采用随机梯度下降法求解,并给出了每个参数梯度。最后通过对比实验,提出的模型在主要评价指标上优于其它算法,从而验证了该算法的有效性。针对类标的依赖性,采用的经典的机器翻译模型seq2seq进行建模。Seq2seq的解码过程使用长短期记忆网络(LSTM)生成类标序列,基于已经预测过的类标来生成下一个类标,有效的解决了类标之间的依赖性问题。并对原始的seq2seq模型进行了以下三点改进:一是采用了注意力机制,有效的考虑了文本中不同特征词对不同的类标预测具有不同的重要性;二是采用一个标记向量来标记解码阶段已经出现的类标,避免对类标进行重复预测;三是用卷积神经网络(CNN)对整个文本进行全局编码的信息输入到seq2seq的解码中。从理论上,对于整个模型分模块求解每个子模块中参数的梯度。在具体数值验证分析上,采用学习率自适应的Adam优化算法进行迭代求解。通过对比实验的设置,利用多个标准数据集做仿真实验,提出的CNN-seq2seq多类标分类模型在主要评价指标上优于其它传统算法。并且通过对预测结果的可视化分析,提出的CNN-seq2seq模型可以预测相关性强的类标,进一步验证了该模型可以解决类标依赖性问题。
其他文献
深度学习给物体的识别和检测带去了重大进展,但它们的本质只是将视觉信息和有限的语言符号进行关联。本文将它们的目标向更广义的智能推进一步,通过视觉信息和任意语言描述的关联,使得智能体能像人类一样理解对物体的指示说明,从而能在视觉感知图像中,唯一定位出符合语言指令的目标区域,这个任务叫做视觉依据。本任务的输入为图像和文本,输出为目标物体的占据区域,属于视觉和语言的交叉领域。由于认知功能的复杂性,本文采用
命名数据网络(Named Data Networking,NDN)作为未来互联网的代表性架构,因其基于名字的路由以及网内缓存机制,使得IP网络中针对主机的分布式拒绝服务(Distributed Denial of Service,DDoS)攻击方式失效。然而NDN的请求-应答通信模式及有状态的转发却滋生了新的DDoS攻击方式——兴趣泛洪攻击(Interest Flooding Attack,IFA
随着互联网技术、信息技术和传感器技术的快速发展,图像、视频、图等数据日益增长,并广泛存在于计算机视觉和机器学习等领域。这些数据蕴含了丰富的信息,挖掘其有用信息,对视频检测、视频跟踪和行为识别等领域具有重要的理论和实用价值。随着深度学习等数据驱动技术的发展,卷积神经网络和图卷积网络等深度模型能够有效挖掘数据的辨别性特征,具有模型与数据匹配度高等优点,是数据分析的有效手段。作为计算机视觉的重要课题之一
随着互联网的高速发展,信息呈现爆炸性增长,出现了“信息过载”现象,这一现象加剧了用户信息选择的困难。在这一背景下,推荐模型应运而生。协同过滤推荐策略在个性化推荐服务
随着虚拟现实技术的快速发展,人机交互正在从传统基于物理外设的模式逐步转变为人机直接交互的虚拟模式。本文就从人机交互中最常见的键盘接口出发,研究适合室内场景下使用的利用单个RGB摄像头作为输入的虚拟键盘系统。但当前,基于计算机视觉的诸多人机交互虚拟应用在手部区域识别准确率、指尖点提取精度、对背景环境鲁棒性、用户易用性等方面仍有进一步完善的空间。因此,研究一套完整的、高精度的、贴近用户日常使用习惯的虚
初级阶段是汉语学习者学习汉语的重要阶段,教材作为汉语学习的主要载体,在此阶段举足轻重。优秀的汉语教材,能够激发学生在初级阶段的学习兴趣,能为汉语的长期学习打下坚实的基础。近年来国内外的汉语国际教育事业蓬勃发展,学术界对于优秀汉语教材的研究也越来越多,这其中就包括对教材练习的研究。教材练习的编排,会对汉语课堂产生直接影响。科学合理的教材练习,能提高课堂效率,提升教学质量水平,优化教学效果。因此,关于
政府投资一直被视为是推动国家经济增长的三驾马车之一,公共项目是政府投资的重要领域,因此,合理有序的增加政府对公共项目的投资能够有效推动经济增长。新时代的新发展理念,秉承质量第一与效益优先原则,这对当前公共工程项目的实施提出更多严格要求。公共工程项目一般通过正式实施实现项目竣工,但因受契约非完全性和环境不确定性等因素干扰,公共工程项目实施往往会走入非正式实施路径。因而本文通过对公共工程项目的非正式实
本文试图从语体的角度出发,考察语体差异能否对指人形式的照应现象产生影响,并且对其造成差异的原因作出初步的、尝试性的解释。本文共分为五章。第一章为绪论,主要介绍了相关领域的研究现状,分别为语体方面的研究现状、语篇照应方面的研究现状,以及与先行语和照应语句法位置相关的研究现状。还介绍了本文的研究对象和目的。研究对象为:法律语体和文艺语体中指人形式的照应类型使用情况、其先行语和照应语句法位置的分布情况,
“反拨效应”通常指语言测试对语言的教学和学习产生的影响。近年来,对语言测试的反拨效应的研究已成为语言测试学的焦点。本研究以语言测试模式和反拨效应的相关研究理论为
8米环形拼接太阳望远镜是CGST计划中的重要方案,在主动控制中,由于环形拼接形式的特殊性,需要附加高精度子镜倾斜探测才能实现主动光学的闭环控制。光学测量手段具备高精度探测的潜力,但是光学探测对环境很敏感,大气湍流引起的波前畸变是光学倾斜探测最重要的误差源,为此,通过数值模拟研究了大气湍流扰动对子镜边缘倾斜探测精度的影响,并给出了在存在大气湍流下其理论的探测精度。在围绕8m RST主动光学关键技术研