论文部分内容阅读
随着信息化技术蓬勃发展,对于传统纸质文献的数字化工作也逐渐展开,同时近年来社交网络和新闻媒体爆炸式增长,带来的是大量的横跨长期时间的数据,如何从这些跨时间数据中挖掘有效的信息成为了当前学术界和工业界的研究工作焦点。近年来深度学习的广泛应用和快速发展为挖掘这些跨时间数据提供了可能,特别是深度学习在文本上强大的表示学习能力,几乎被应用在基于深度学习进行自然语言处理相关的所有工作中。作为自然语言处理相关任务的基石,对于词语的表示学习(词汇表征学习)经历了从最初的简单的统计、词袋模型等传统的基于统计的表示方法到对词语的共现关系进行学习、对句子中的词语序列进行学习等基于深度学习模型的方法,已经取得了不俗的成就。但是现有的算法对于跨时间的词汇表征学习仍然存在一些问题,比如现在的一些研究更多的是将这些模型应用在不同的时间片上,然后通过对齐算法来将多个时间片上的词汇表征结果进行对齐,对于此类方法的词汇演变分析效果不仅依赖于词汇表征学习算法本身,还依赖于对齐算法的效果,而现有的对齐算法比较容易陷入过对齐的状态。本文主要研究跨时间的词汇表征学习算法在对齐上的改进,通过引入基于深度学习的相关算法结合我们提出的框架实现免对齐词向量训练,我们首先引入了一种能够免对齐的思想,该思想在低维词汇表征学习算法上将输入的词语按照时间片进行区分,然后在学习隐层词汇表示的时候将所有词语在时间片上的表示进行整合,使其不仅能够反映同一个词语在不同时期上的特征,还可以反映不同词语在跨时间上的相关关系,并将该思想应用在现有的词汇表征学习算法上提出了TaggedSVD(TSVD)和Tagged-SGNS(TSGNS)两种模型。同时,针对词义演变分析的任务,从词语含义或者用法发生变化在实际语料中的特征入手,通过人为控制词语发生变化的程度提出了一种能够反映跨时间词汇表征学习模型平滑程度的评价指标。除此之外,在进一步分析我们现有模型的特点之后,我们还提出了一种基于句子的词汇表征学习方法(Sentence-based Word Embedding,SWE),该模型从两个方面对现有的跨时间词汇表征学习算法进行改进,首先是将整个句子作为词汇表征学习的范围,将距离比较远的词语的关系进行学习,提升训练的结果,其次提供了对上下文进行深层挖掘的能力,能够将上下文级联特征考虑进模型,进一步提升词汇表征学习的效果。本文的主要研究成果如下:(1)SGNS作为一种词汇表征学习算法,通过将词语作为向量嵌入到不同时间段的低维向量空间,现有的研究表明这种方法能够在跨时间词义演变分析中取得较好的效果。这种方法将单词的语义演变的量化转化为跨时间词语向量表示的距离(通常为余弦距离)。作为能够进行跨时间对比的前提,我们需要对不同时间片的向量空间进行对齐。近年来的相关算法都是基于大多数单词随着时间的推移保持不变的假设来提出了相关的对齐方法。然而,这种假设不能保证对齐的平滑性,即如果一个单词随着时间的推移具有相似的共现词汇数据,则该单词的向量表示在不同时间应该是相似的;否则,该单词的向量表示应该是趋向不同的。本文提出了Tagged-SGNS(TSGNS),它保证了向量空间在不同时间段的平滑对齐,增强了跨时间语义分析的能力。除了对表征学习算法本身的分析之外,我们还在Google Books N-gram的105 GB数据集上对TSGNS进行了评估。测试结果表明,我们的方法相对于目前最先进的方法具有一定的优势。(2)虽然在过去的十多年间,人们提出了各种词义演变分析方法。然而,所有现有的研究都忽略了两个问题。首先,词汇表征学习是基于语料库中句子前后一定范围内的上下文词共现分析得到的,而忽略了整个句子的丰富信息。第二,现有的研究基于语料库中上下文词随时间的变化抓住了词语随着时间推移发生的语义变化,但普遍忽略了文本深层上下文的变化,即上下文词语的上下文发生的变化,从而间接地影响着上下文词语的语义随时间的变化。为了填补这一空白,本文提出了基于句子的词汇表征学习方法(SWB),解决了句子长度不同和目标词在句子中的位置随机等问题。在不同背景下的大型语料库上的实验结果验证了本研究主题相对于最新研究结果具有一定的优势。(3)目前针对中文的使用机器学习算法进行词汇演变分析的研究仍比较少。相较于英文,对于中文的词义演变分析还会受到中文自然语言处理流程中的分词、去停用词等的影响,我们使用了中国搜索引擎服务提供商搜狗提供的海量数据。经过数据预处理,得到了跨时间的中文语料库。然后我们将将三种不同的词汇表征学习方法来对上述数据集进行训练,并对三种方法进行了比较。最后我们还对中文词义演变分析的模型结果进行了工程化,形成了一个展示系统,该系统能够在线展示被查询单词在不同时期的语义相近单词(邻居单词),通过区分不同时期的邻居单词来推测被查询单词在这些不同时期之间的语义变化方向。