基于词汇表征学习的词义演变及其评价研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:suilong12341106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术蓬勃发展,对于传统纸质文献的数字化工作也逐渐展开,同时近年来社交网络和新闻媒体爆炸式增长,带来的是大量的横跨长期时间的数据,如何从这些跨时间数据中挖掘有效的信息成为了当前学术界和工业界的研究工作焦点。近年来深度学习的广泛应用和快速发展为挖掘这些跨时间数据提供了可能,特别是深度学习在文本上强大的表示学习能力,几乎被应用在基于深度学习进行自然语言处理相关的所有工作中。作为自然语言处理相关任务的基石,对于词语的表示学习(词汇表征学习)经历了从最初的简单的统计、词袋模型等传统的基于统计的表示方法到对词语的共现关系进行学习、对句子中的词语序列进行学习等基于深度学习模型的方法,已经取得了不俗的成就。但是现有的算法对于跨时间的词汇表征学习仍然存在一些问题,比如现在的一些研究更多的是将这些模型应用在不同的时间片上,然后通过对齐算法来将多个时间片上的词汇表征结果进行对齐,对于此类方法的词汇演变分析效果不仅依赖于词汇表征学习算法本身,还依赖于对齐算法的效果,而现有的对齐算法比较容易陷入过对齐的状态。本文主要研究跨时间的词汇表征学习算法在对齐上的改进,通过引入基于深度学习的相关算法结合我们提出的框架实现免对齐词向量训练,我们首先引入了一种能够免对齐的思想,该思想在低维词汇表征学习算法上将输入的词语按照时间片进行区分,然后在学习隐层词汇表示的时候将所有词语在时间片上的表示进行整合,使其不仅能够反映同一个词语在不同时期上的特征,还可以反映不同词语在跨时间上的相关关系,并将该思想应用在现有的词汇表征学习算法上提出了TaggedSVD(TSVD)和Tagged-SGNS(TSGNS)两种模型。同时,针对词义演变分析的任务,从词语含义或者用法发生变化在实际语料中的特征入手,通过人为控制词语发生变化的程度提出了一种能够反映跨时间词汇表征学习模型平滑程度的评价指标。除此之外,在进一步分析我们现有模型的特点之后,我们还提出了一种基于句子的词汇表征学习方法(Sentence-based Word Embedding,SWE),该模型从两个方面对现有的跨时间词汇表征学习算法进行改进,首先是将整个句子作为词汇表征学习的范围,将距离比较远的词语的关系进行学习,提升训练的结果,其次提供了对上下文进行深层挖掘的能力,能够将上下文级联特征考虑进模型,进一步提升词汇表征学习的效果。本文的主要研究成果如下:(1)SGNS作为一种词汇表征学习算法,通过将词语作为向量嵌入到不同时间段的低维向量空间,现有的研究表明这种方法能够在跨时间词义演变分析中取得较好的效果。这种方法将单词的语义演变的量化转化为跨时间词语向量表示的距离(通常为余弦距离)。作为能够进行跨时间对比的前提,我们需要对不同时间片的向量空间进行对齐。近年来的相关算法都是基于大多数单词随着时间的推移保持不变的假设来提出了相关的对齐方法。然而,这种假设不能保证对齐的平滑性,即如果一个单词随着时间的推移具有相似的共现词汇数据,则该单词的向量表示在不同时间应该是相似的;否则,该单词的向量表示应该是趋向不同的。本文提出了Tagged-SGNS(TSGNS),它保证了向量空间在不同时间段的平滑对齐,增强了跨时间语义分析的能力。除了对表征学习算法本身的分析之外,我们还在Google Books N-gram的105 GB数据集上对TSGNS进行了评估。测试结果表明,我们的方法相对于目前最先进的方法具有一定的优势。(2)虽然在过去的十多年间,人们提出了各种词义演变分析方法。然而,所有现有的研究都忽略了两个问题。首先,词汇表征学习是基于语料库中句子前后一定范围内的上下文词共现分析得到的,而忽略了整个句子的丰富信息。第二,现有的研究基于语料库中上下文词随时间的变化抓住了词语随着时间推移发生的语义变化,但普遍忽略了文本深层上下文的变化,即上下文词语的上下文发生的变化,从而间接地影响着上下文词语的语义随时间的变化。为了填补这一空白,本文提出了基于句子的词汇表征学习方法(SWB),解决了句子长度不同和目标词在句子中的位置随机等问题。在不同背景下的大型语料库上的实验结果验证了本研究主题相对于最新研究结果具有一定的优势。(3)目前针对中文的使用机器学习算法进行词汇演变分析的研究仍比较少。相较于英文,对于中文的词义演变分析还会受到中文自然语言处理流程中的分词、去停用词等的影响,我们使用了中国搜索引擎服务提供商搜狗提供的海量数据。经过数据预处理,得到了跨时间的中文语料库。然后我们将将三种不同的词汇表征学习方法来对上述数据集进行训练,并对三种方法进行了比较。最后我们还对中文词义演变分析的模型结果进行了工程化,形成了一个展示系统,该系统能够在线展示被查询单词在不同时期的语义相近单词(邻居单词),通过区分不同时期的邻居单词来推测被查询单词在这些不同时期之间的语义变化方向。
其他文献
农村宗族势力在我国存在已久,其在发挥一定的社会功能的同时也对村民自治产生很大的消极影响,如影响农村民主选举、干扰村委会民主决策、扰乱村委会民主管理、妨碍民主监督。
近年来,乡村旅游在国内发展速度迅猛,已经成为解决“三农”问题的重要举措和精准扶贫的有效途径。发展乡村旅游对中国实施乡村振兴战略、全面建成小康社会具有重要意义。乡村
目的探讨子宫颈胃型腺癌(GAC)的临床特征、组织学特点、免疫组化表型、诊断及鉴别诊断。方法回顾性分析7例GAC的临床病理特点,并复习相关文献。结果 7例患者发病年龄34~66岁,
目的本研究主要观察高脂高糖饲养的高胰岛素血症小鼠肝脏、骨骼肌及卵巢胰岛素受体(InsR)、胰岛素受体底物-1(IRS-1)及磷酸化胰岛素受体底物-1(P-IRS-1)表达水平的变化,进一步分析各组织胰岛素受体分布随胰岛素抵抗(IR)状态改变的研究。方法我们选取了60只4周龄的健康雌性C57BL/6J小鼠,将其随机分为普通饲料饲养组(NF组)和高脂高糖饲养组(HF组),标记后再分为6个组,每组10只
张履祥,清初著名学者,其著作被后人编订为五十四卷,收入《杨园先生全集》中。明亡后,张履祥不肯仕清,放弃科举,隐居乡里,开馆授徒,以布衣终老。张履祥之成长为著名学者,与早
<正>一堂完美的课,少不了引人入胜的开头,精彩纷呈的中间,更不能缺意犹未尽的结尾。要在已授内容的基础上,精心设计结尾,使学生获得的知识系统化,在学生的脑海中形成知识链,
会议
随着主体功能区观点的提出,各个功能区之间经济发展水平的差距逐渐加大,这在一定程度上加剧了地区经济和社会的不协调发展,在各地区之间建立生态补偿机制的重要性日益凸显。
本试验旨在研究高粱型饲粮中添加复合酶和益生菌对良凤花肉鸡生长性能、血清抗氧化指标及肠道结构的影响。试验选取1日龄体重相近的健康良凤花肉鸡公鸡900只,随机分为5个组,
伴随我国经济的发展以及各地区交通运输流量的不断增大,公路桥梁工程的数量也逐渐增多,而且在施工技术和安全性等方面提出了更高的要求,要确保公路桥梁工程施工质量,就必须做
运用Schnkerman和Pakes的专利评估模型,对中国的专利权质量进行了评估和分析,并与欧洲国家专利权质量进行比较,得出了一个国家的专利制度重视专利权质量比专利权数量更有意义