【摘 要】
:
词的表示是自然语言处理中的基础任务之一,传统的词表示方法通常使用基于向量空间的独热表示,该方法虽然简单有效但是存在数据稀疏、无法获取词语之间的语义相关性等问题。随着深度神经网络在自然语言处理领域的兴起,词嵌入模型逐渐成为词表示的主流方法。与此同时,中文词嵌入模型的研究也逐渐受到学术界的重视。不同于以英文为代表的表音文字系统,汉字是由象形文字演化而来的,汉字的各种字形结构部件中蕴含着丰富的语义信息。
论文部分内容阅读
词的表示是自然语言处理中的基础任务之一,传统的词表示方法通常使用基于向量空间的独热表示,该方法虽然简单有效但是存在数据稀疏、无法获取词语之间的语义相关性等问题。随着深度神经网络在自然语言处理领域的兴起,词嵌入模型逐渐成为词表示的主流方法。与此同时,中文词嵌入模型的研究也逐渐受到学术界的重视。不同于以英文为代表的表音文字系统,汉字是由象形文字演化而来的,汉字的各种字形结构部件中蕴含着丰富的语义信息。现有的研究中显示,通过挖掘这些语义信息,可有效提升中文词向量的质量。本文在当前的中文词嵌入模型的基础上,提出了一种基于字形结构的多粒度中文词嵌入模型。本文的具体工作如下:一、整理分析并介绍了词向量表示的历史发展和研究现状,以及现有模型的具体方法和其优缺点;二、提出了基于字形结构的多粒度中文词嵌入模型,基于词、字和字形结构部件等多粒度进行联合学习,充分挖掘汉字的字形结构中所蕴含的语义信息,通过使用双向长短期记忆网络和自注意力机制使得加入词嵌入中的信息在语义上和词更为相关,并可避免将噪声加入至词嵌入中;三、综合了多种评价方法对词向量进行了实验评估,将训练得到的词向量应用于四种基础自然语言处理任务中进行实验以及定性分析,得到的实验结果与现有的先进模型的实验结果进行对比并得出结论;四、对在本文中提出的词向量模型的研究结果进行总结,并对中文词嵌入方法的未来发展进行展望。
其他文献
局部几何n-连通空间(LGCn(ρ)空间)是通常的局部n-连通空间的一个定量处理.近几十年来,该概念在几何,拓扑及分析领域有广泛的应用.P.Petersen指出(没有证明):如果X是维数不超过n的度量空间,Y(?)X是LGCn(ρ)空间,则在适当的条件下,存在收缩r:X → Y.本文给出了这个结论的一个详细证明,且给出了收缩映射的扭曲常数(distortion)的估计.此外,我们考虑了以LGCn(
图的结构一直是图论研究的重要内容,是图论其他方向研究的基础.图的连通性是图论结构的重要内容之一,可收缩边是研究连通图构造的强有力工具,在归纳证明连通图的性质有非常重要的作用.不存在k-可收缩边的k-连通图称为是收缩临界k-连通图.为深入研究收缩临界k-连通图,人们对其定义进行推广.设G是一个k-连通图,如果G中的任意一个阶不超过m的完全图H都包含在一个k-点割内,则称图G是Cm-临界k-连通图.本
随着油气勘探开发技术的发展和全球对石油需求量的增加,油气业界逐渐由传统简单构造油气藏勘探开发转向更为复杂的岩性油气藏和多类型岩性与构造复合油气藏的探测和开发。由
农业是重要的活性氮(Reactive nitrogen,Nr)排放源之一,随农田氮肥用量的增加,部分氮素不能被作物吸收而以各种活性氮的形式释放到环境中,造成温室效应、水体污染、土壤酸化
由于特殊的热电传输性能,纳米材料在微电子器件和热电转换领域备受人们青睐。研究发现纳米材料与传统的粗晶材料相比具有很多不同的热输运性质,现在已经成为科研学者的研究热点。例如,当晶粒尺寸降低到纳米量级,材料导热性能会随晶粒尺寸的变化而发生变化。晶体缺陷,掺杂等使载热子散射增强,进一步降低热导率,使导热性能恶化。由于纳米材料结构的复杂性,现在纳米材料的导热研究尚处于初步阶段。为进一步研究纳晶材料的热输运
伴随着纳米科学技术的飞速发展,不同种类的新型材料逐渐涌现出来。相对于传统材料,纳米颗粒复合材料不仅有着更高的强度同时还保持着良好的韧塑性,并且还具有特异的导热性能。这些优异的性能归因于纳米颗粒的加入,使得材料的结构组织细化,自身缺陷减小。但是纳米颗粒的尺寸小与或比拟于载流子(声子,电子,光子)的平均自由程,其表现出的性质与传统材料差异很大。因此,深入研究并掌握新兴材料的导热性能成为我们的重点研究方
由于自然风的复杂多变,使得风力机在运行过程中时常处于动态偏航状态。在对偏航工况的研究中,通常采用改变不同的固定偏航角来探究偏航对风力机气动性能的影响,往往忽略了风
随着数据挖掘的迅猛发展,大数据广泛存在于工程应用之中,如互联网数据、医疗数据和图像数据等。这些海量数据的到来使得预测通常变得更加精确。与此同时,它们也带来了一系列的科学挑战,例如存储瓶颈、算法的可拓展性和可解释性等。在大数据时代背景下,我们需要开发高效的机器学习算法来克服海量数据所带来的挑战。我们熟知分类问题在数据挖掘中是一项十分重要的任务,也是机器学习领域中重要的研究内容之一。它在我们现实生活中
在现有被广泛使用的声波测井方法中,测井探测范围有限,尤其是对于井旁地层的变化复杂的状况难以准确描述(大倾角结构或裂缝),而现有的三维地震勘探和井间地震勘探对于变化较
石墨烯作为具有近乎理想的二维纳米结构新型材料,具有优良的光电性能、极高的电子迁移率、导热率、环境稳定性以及优越的力学特性,在气体传感材料领域有着广泛的应用。氧化锌