论文部分内容阅读
自2013年中国与印度尼西亚确立全面战略伙伴关系以来,两国的经济合作和贸易往来愈发密切。通过收集与分析印尼国内新闻网站和社交媒体发布的信息,我们可以更深入了解印度尼西亚的国情。但这些信息多是用印度尼西亚语写成,若是有相关工具可对其进行自动处理和分析,将能为相关研究人员提供极大的便利。然而,与英语、汉语等高资源语言不同,作为非通用语言的印度尼西亚语在自然语言处理领域受到的关注远不及通用语言,导致目前面向印尼语的语言基础资源和语言处理工具非常有限。句法分析是连接自然语言处理上层应用和底层技术的一个重要纽带。然而,目前国内外在印尼语句法分析方面的研究工作较少,不仅缺乏大规模的句法树库,而且也少有较前沿的方法和模型在其上面的研究和应用。针对以上问题,本文的研究从已有的依存句法分析理论和方法出发,较深入分析了印尼语语言的特点,并借助现有的研究成果提出更符合印尼语语言特点的依存句法分析方法。具体研究内容如下:(1)基于深度学习技术的印尼语依存句法分析我们总结了常见的几种基于深度学习的依存句法分析方法,并将其应用在印尼语语料上,以验证其在印尼语上的可行性。另外,根据印尼语的语言特性,我们对公开数据集中存在的一些问题进行了修正,以建立更符合印尼语特点的依存句法分析模型。我们的实验以传统的机器学习方法为基础模型,并对比了三类神经依存分析模型。实验结果表明基于深度学习的方法的表现要显著优于基础模型,其中最好的模型的无标签依存正确率超过87%,带标签依存正确率超过82%。与之前在印尼语依存句法分析上的研究工作相比,基于深度学习技术的模型的准确率较为理想,可考虑将其应用于实际场景中。同时,对数据集的处理可以引入细粒度的句法信息,有利于我们更好地理解与分析印尼语的句法结构,建立符合印尼语语言特点的句法分析模型。(2)基于英印双语平行句对的印尼语依存树库构建在充分利用英语-印尼语平行句对的基础上,我们考察印尼语的语言特点,初步构建了印尼语树库。我们首先借助大量英语-印尼语平行语料获取词对齐信息,再以此为基础将英语句子的依存关系投射到印尼语句子上。在仔细考察两种语言的语法异同后,提出依存关系的修正规则。与人工直接标注依存关系的方法相比,这种方法可减少人工参与量,并且能在短时间内获得更多的印尼语标注语料,因此有助于高效构建大规模句法树库。我们通过这种方法初步构建了一个包含3000个句子的印尼语依存树库,以该树库作为训练集,在人工标注的标准数据集上的无标签依存正确率超过了70%。