【摘 要】
:
互联网和物联网的全面化加速了人类进入人工智能时代,随之而来的各种终端设备上产生了大量的文本数据,将文本数据信息化需要很好的表征这些文本。文本表示是从文本中提取和学习其蕴含的语义信息,并将文本表征成计算机可运算的数值向量,该任务作为自然语言处理领域中所有下游任务的关键环节,如文本分类、信息抽取、机器翻译、自动问答等任务,因此近年来引起了诸多学者的关注。文本主要有词、句子、文档三种存在形式,现有的文本
论文部分内容阅读
互联网和物联网的全面化加速了人类进入人工智能时代,随之而来的各种终端设备上产生了大量的文本数据,将文本数据信息化需要很好的表征这些文本。文本表示是从文本中提取和学习其蕴含的语义信息,并将文本表征成计算机可运算的数值向量,该任务作为自然语言处理领域中所有下游任务的关键环节,如文本分类、信息抽取、机器翻译、自动问答等任务,因此近年来引起了诸多学者的关注。文本主要有词、句子、文档三种存在形式,现有的文本表示方法主要有传统的文本表征算法和基于神经网络的文本表征算法两个流派的方法论。本文基于深度神经网络构建了三个针对不同语言、不同领域的轻量级文本表征算法,并结合文本分类下游任务构建了端到端(end-to-end)的模型,具体如下:1)针对英文语料,探究了字符亚词信息给文本表征带来的提升。基于CNN网络,引入了单词的字符信息,并将卷积网络中的池化操作优化成Self-Attention网络,构建了基于字符的分层注意力卷积模型(E-HAC)。在通用的6个文本分类数据集上进行了实验,与baseline CNN模型效果相比,准确率均有所提升,尤其在MR数据集上提升近2个百分点。2)针对中文特定领域,探究了笔画亚词信息给文本表征带来的增益。基于CNN网络,引入词语的笔画信息,并将卷积网络中的池化操作优化成自注意力机制,建立了基于笔画的分层注意力卷积模型(C-HAC)。在我们构建的法律咨询专业问题分类数据集,准确率要优于baseline CNN模型4个百分点。3)在现有GRU结构基础上,受二阶泰勒展式思想和Self-Attention思想的启发,对现有GRU的结构进行改进,构建了Attention-based 2rd-GRU模型。在中文特定法律咨询专业问题分类任务上,相比于Attention-based GRU基准模型在准确率上提升了约3个百分点。
其他文献
研究目的:明确牙瘤对牙瘤区乳牙滞留及恒牙埋伏的相关性,为临床是否该早期手术干预牙瘤提供理论依据研究方法:以我院摄片发现的73例牙瘤患者为实验组,随机抽取于我院摄片的相
目的探讨应用改良提上睑肌缩短术治疗中、重度先天性上睑下垂的效果。方法对30例中、重度先天性上睑下垂患者采用联合睑板切除的提上睑肌缩短术,并对术后效果进行随访观察。
<正>一、关于“苗”的概念中华人民共和国成立以前,历代统治阶级对贵州等地的少数民族均称之为“苗”、“苗夷”等。因此,本文所指的“苗”,包括生活在贵州、广西、云南、四
股权激励是上市公司长期激励计划的一种方式,是激励对象薪酬结构的重要组成部分。2005年12月31日,证监会颁布《上市公司股权激励管理办法》,上市公司实施股权激励的意愿越来越强烈。根据激励对象的划分标准,可以将股权激励分为高管股权激励和员工股权激励,高管和员工在公司所承担的责任和义务、权利和能力存在很大的差异,股权激励对不同激励对象产生不同的激励效果。而实施股权激励的目标之一是促进公司业绩的增长,所
统编版小学语文教科书于2016年9月开始在国内广泛使用。由于统编版小学语文教科书使用时间不长,对它的研究尚处于萌芽阶段,尤其是对其习作系统的研究更是近乎空白。相较于之前使用的人教版小学语文教科书,统编版小学语文教科书不论是在内容上,还是在形式上都发生了较大的变化。本文以统编版与人教版小学第二学段语文教科书习作系统为研究对象,对两版教科书习作系统进行比较分析。运用文献研究法,梳理语文教科书与语文教科
全面“营改增”后,一方面我国增值税在税收收入的比重不断加大,另一方面由于增值税发票使用数量的剧增进一步增加了虚开各类增值税发票的风险。在各类增值税发票中,有一种发票十分特殊,这就是农产品收购发票。农产品收购发票具有自行开具、自行申报、自行抵扣的特点。正因农产品收购发票的“三自”特点,既导致第三方的有效监督缺失,又导致税务机关的管控失效,造成了近年来虚开农产品收购发票犯罪居高不下。与此同时,随着金税
习近平总书记在党的十九大报告中全面深入地阐述了新时代中国推动构建人类命运共同体的观点和主张,为解决人类问题贡献了中国智慧和中国方案。中国智慧和中国方案明确了新时
在常态背景下,中国城镇的发展由外延扩张逐步转向内涵提升,打造宜居的人居环境是提升城镇生活质量的重要的途径之一,合理配置公共服务设施是宜居环境的重要环节。然而,我国公
本文从社会文化理论视角对国外新近兴起的言说法在外语教学领域的应用研究进行了综述。全文首先介绍言说(Languaging)的理论基础,然后对言说在外语教学中的应用研究分类及相
<正>2007年,英国邓迪大学药理学家Andrew L.Hopkins首次系统阐述了网络药理学,它是一门对药物分子-靶点-疾病生物信息网络综合分析并设计多靶点药物分子的新学科。网络药理学