论文部分内容阅读
指代(anaphroa)是指在语篇中用一个指代词回指某个前文出现的语言单位,保证文章连贯性的同时又减少冗余、突出主题,使文本上下文通俗易懂。因此,对指代成分准确的消解有助于机器分析和语篇理解,是自然语言处理中的一项重要任务。指代消歧包括:1)待消解项识别,确定篇章中的哪些语言单位(如:代词、人称代词、名词/名词短语、专有名词、实体零指代项等)是存在于指代链中的待消解项,哪些语言单位是不存在于指代链中的待消解项。2)指代消歧:是指对文本中识别出的待消解项寻找指代关系进行消解的过程。指代的类型根据指代对象的大致不同分为:名词短语指代消歧、代词指代消歧、零型指代消歧。目前针对指代消歧的研究大多数集中在语料资源丰富的英文和中文指代消歧,并取得了丰硕成果,但对于像维吾尔语这样语料资源匮乏的语种研究还较少。因此针对维吾尔语名词短语指代消歧,本文完成了以下工作。(1)维吾尔语语言专家根据维吾尔语粘着性语系的语言特性,归纳出了5类具有指示性的维吾尔语名词短语,在专家的指导下进行维吾尔语名词短语特征向量提取。抽取15个特征作为待消解项识别的特征向量,利用深度学习在自然语言处理中较强的文本学习能力和提取深层语义信息的特点,本文利用栈式自编码算法(SAE)进行维吾尔语名词短语待消解项识别待验证深度学习的有效性,并在自编码算法的基础上引入非负约束权值,构建栈式非负约束自编码算法(SNCAE),完成维吾尔语语言的名词短语待消解项识别的任务。(2)在维吾尔语语言专家的指导下,通过分析维吾尔语名词短语指代现象,总结出五种具有指称性的名词短语,提取出维吾尔语名词短语指代消歧的特征向量。同时在特征向量中引入富含词汇语义及上下文位置关系的词向量,并在生成测试样例前加入待消解项识别,利用栈式非负约束自编码算法(SNCAE)提取出深层语义特征完成基于深层语义和句法信息的维吾尔语名词短语指代消歧。