论文部分内容阅读
随着计算机和互联网技术的飞速发展,在自然语言处理领域,以双语平行语料库为基础的研究日益增多。双语平行语料库可被应用于机器翻译、双语词典编纂、词义消歧及跨语言信息检索等领域。维吾尔语作为我国重要的少数民族语言之一,目前对它研究主要侧重于语言本身,而对于维汉双语平行语料库的研究较少。本文针对现有维汉双语平行语料稀少的问题,展开了关于构建维汉双语平行语料库所需技术的研究。
句对齐技术作为构建维汉双语平行语料库所需关键技术,能够从已有的维汉对照文本中获得双语句对齐文本。通过阅读相关文献,本文分析已有方法的优缺点,结合维文汉文问语言学关系,提出基于句位置分布信息的多策略融合句对齐方法。实验证明,在针对某一领域内的维汉双语对照语料进行句对齐处理时,该方法较已有方法可以有效提高句子的对齐准确性。
然而,在语料的实际收集过程中,仅对可以进行句子对齐的维汉双语语料进行收集显然不能满足构建较大规模语料库要求。因此,本文从维文出发,通过互联网收集维文网站中的维文语料,并对其进行人工翻译,最终可获得大量内容丰富的维汉双语平行语料。在对维文语料获取方法的研究中,本文通过设计网络爬虫程序获取维文网页文档,然后结合维语语言学特点设计合理的信息抽取策略完成有价值的维文语料抽取,之后通过人工翻译的方法获得维汉双语平行语料。
最后,本文根据某企业实际需求,以上述构建维汉双语平行语料库所需技术为基础,设计并实现了一个具有一定规模且功能丰富的维汉双语平行语料库收集系统。