面向印尼语的依存句法分析研究

来源 :广东外语外贸大学 | 被引量 : 2次 | 上传用户:wpf82011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2013年中国与印度尼西亚确立全面战略伙伴关系以来,两国的经济合作和贸易往来愈发密切。通过收集与分析印尼国内新闻网站和社交媒体发布的信息,我们可以更深入了解印度尼西亚的国情。但这些信息多是用印度尼西亚语写成,若是有相关工具可对其进行自动处理和分析,将能为相关研究人员提供极大的便利。然而,与英语、汉语等高资源语言不同,作为非通用语言的印度尼西亚语在自然语言处理领域受到的关注远不及通用语言,导致目前面向印尼语的语言基础资源和语言处理工具非常有限。句法分析是连接自然语言处理上层应用和底层技术的一个重要纽带。然而,目前国内外在印尼语句法分析方面的研究工作较少,不仅缺乏大规模的句法树库,而且也少有较前沿的方法和模型在其上面的研究和应用。针对以上问题,本文的研究从已有的依存句法分析理论和方法出发,较深入分析了印尼语语言的特点,并借助现有的研究成果提出更符合印尼语语言特点的依存句法分析方法。具体研究内容如下:(1)基于深度学习技术的印尼语依存句法分析我们总结了常见的几种基于深度学习的依存句法分析方法,并将其应用在印尼语语料上,以验证其在印尼语上的可行性。另外,根据印尼语的语言特性,我们对公开数据集中存在的一些问题进行了修正,以建立更符合印尼语特点的依存句法分析模型。我们的实验以传统的机器学习方法为基础模型,并对比了三类神经依存分析模型。实验结果表明基于深度学习的方法的表现要显著优于基础模型,其中最好的模型的无标签依存正确率超过87%,带标签依存正确率超过82%。与之前在印尼语依存句法分析上的研究工作相比,基于深度学习技术的模型的准确率较为理想,可考虑将其应用于实际场景中。同时,对数据集的处理可以引入细粒度的句法信息,有利于我们更好地理解与分析印尼语的句法结构,建立符合印尼语语言特点的句法分析模型。(2)基于英印双语平行句对的印尼语依存树库构建在充分利用英语-印尼语平行句对的基础上,我们考察印尼语的语言特点,初步构建了印尼语树库。我们首先借助大量英语-印尼语平行语料获取词对齐信息,再以此为基础将英语句子的依存关系投射到印尼语句子上。在仔细考察两种语言的语法异同后,提出依存关系的修正规则。与人工直接标注依存关系的方法相比,这种方法可减少人工参与量,并且能在短时间内获得更多的印尼语标注语料,因此有助于高效构建大规模句法树库。我们通过这种方法初步构建了一个包含3000个句子的印尼语依存树库,以该树库作为训练集,在人工标注的标准数据集上的无标签依存正确率超过了70%。
其他文献
随着我国农业对外开放程度的不断扩大,国内外农产品价格变化的联动性不断增强,市场间的风险传染逐渐加深,大豆作为我国进口规模最大的农产品,需求大,用途广,相关产业链丰富,
随着社会主义市场经济的发展,产品市场竞争越来越激烈,产品质量是企业的生命,谁产品质量好,谁就能占领市场,企业就有生命力。但同时对质量监督人员的技术水平也有了更高的要
当前,社会状况、政治经济等诸多领域都发生了很大的改变,“契约必须严守”这一原则也随之面临着严峻的挑战,相应的也就产生和发展了情势变更原则。但是这一原则在学术界以及
本文简要介绍了《香港公约》及其导则的产生背景及其主要内容、国内拆船业的现状、分析公约实施对我国可能产生的影响,并结合国内实际提出应对措施。
部分恶性肿瘤是在阳虚寒凝的基础上寒痰凝结而成,附子擅于温阳散寒,土贝母长于化痰,两者属十八反配伍,可起到很好的温化寒痰与散寒解毒作用,据此我们以附子和土贝母为主要药
会议
在这高速发展的社会中,在教育体制慢慢转变的情况下,由于社会不良文化和不良社会风气的影响,青少年在思想道德和行为动机方面发生了很大变化。本文从少年弑母、弑父等案件所
伴随着无人设备在军事和民用领域的应用不断增多,多种无人系统之间相互协同、交叉使用,跨域协同已逐渐成为无人系统技术与运用的新的研究方向。在跨域协同中,空地协同侦察是
对贻贝粘蛋白的组成、获取方法、粘附机制、性能以及应用现状进行了总结,并展望了贻贝粘蛋白在生物医学领域的应用前景。