基于神经网络的蒙古文词切分方法及其应用

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:sniper0928
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文词切分是蒙古文信息处理的基础,也是蒙汉机器翻译等下游任务的关键。近年来,深度神经网络模型在自然语言处理领域得到广泛应用,在分词研究任务中也取得了不错的成绩。本文首先利用多种深度学习模型对蒙古文词切分方法进行研究,通过对比蒙古文部分切分、BPE切分和神经网络切分方法对于蒙汉机器翻译性能的影响,并提出了一种改进的神经网络蒙古文词切分基础上过滤停用词的蒙汉神经机器翻译方法。主要研究内容有:首先,将Bi LSTM神经网络模型、CNN神经网络模型、传统的CRF统计模型进行结合,提出基于Bi LSTM-CNN-CRF神经网络模型的蒙古文词切分方法。该模型保留了Bi LSTM模型的捕捉长远距离信息的特点,同时具备CNN模型提取局部特征以及CRF联合解码出最优标记序列的功能。实验结果表明,本文提出的基于Bi LSTM-CNN-CRF的神经网络词切分模型与Bi LSTM、Bi LSTM-CRF神经网络模型进行对比性能最优,蒙古文词切分的准确率达到了97.37%。然后,本文搭建了基于蒙古文词切分的Transformer蒙汉神经机器翻译模型,对蒙古文采用部分切分法、BPE切分法以及基于神经网络的切分法进行词切分预处理,并用不同词切分方法预处理过的语料训练蒙汉神经机器翻译模型。实验结果表明,与基线实验进行比较基于蒙古文词切分的Transformer蒙汉机器翻译性能均有所提升。其中,蒙古文部分切分方法对蒙汉机器翻译译文质量最好,使蒙汉机器翻译BLEU5值达到了72.10%。最后,通过分析多种切分方法对蒙古文语料的切分粒度分析,结合蒙古文构词特点,本文提出了一种改进的神经网络蒙古文切分基础上过滤停用词的蒙汉神经机器翻译方法。改进的方法对蒙古文神经网络切分完语料中出现的单个连接元音“V(?)”、“U(?)”和不稳定“N(?)”进行过滤处理。实验结果表明,进行过滤后的Bi LSTM-CNN-CRF神经网络的蒙古文词切分方法将机器翻译译文中BLEU5值达到73.30%,比不过滤时的翻译BLEU5值提高了1.95个百分点,并且优于部分切分法和BPE切分法。因此改进的神经网络蒙古文切分中过滤停用词的蒙汉神经机器翻译方法能够进一步改善蒙汉神经机器翻译性能。
其他文献
吐鲁番位于今新疆维吾尔自治区的中部,是天山东部的一个东西横置的形如橄榄状的山间盆地,四面环山,是古丝绸之路上东西方文化交流的重镇。吐鲁番出土文献种类较多、语种多样、内容丰富。吐鲁番出土回鹘式蒙古文文献包括手写文献和木刻文献两种,本文以木刻文献为研究对象。吐鲁番出土回鹘式蒙古文木刻文献是蒙古族宗教文献资料的重要组成部分,它具有历史学、文献学、宗教学、语言文字学等多方面的研究价值。通过对吐鲁番出土回鹘
学位
《丙寅》杂志是现代文化事业的先驱卜和克什克(1902-1943年)创办的民间综合性刊物。本论文将《丙寅》杂志的文学活动从传承问题、创新问题、建构问题进行系统化研究,分析概括该杂志对蒙古族现代文学起到的承上启下的作用。主要结合运用了统计学方法、社会历史批评方法、传播学、文献学等研究方法。本论文由绪论、正文(1-3章)、结论、参考文献等四个部分组成。绪论部分,主要介绍了选题缘由、研究综述、选题目的及价
学位
在中古蒙古语文献中,除了回鹘式蒙古文文献、八思巴字蒙古语文献、汉字标注蒙古语文献以外,还有阿拉伯字标注蒙古语文献。在阿拉伯字标注蒙古语文献中,《穆卡迪玛特·阿勒-阿达布蒙古语词典》是阿拉伯语-波斯语-突厥语-蒙古语四种语言的词典。这部词典最初是阿拉伯语-波斯语词典,是十二世纪穆罕默德·札马赫沙利创编的,之后在此基础上增加了突厥语,至于第四种蒙古语具体是什么人增加的至今未有明确记载。《穆卡迪玛特·阿
学位
肺结节是早期诊断肺癌的判断标准,对肺结节进行准确分割是制定治疗方案的关键步骤,可以大大提高肺癌患者的治愈率。然而,现有的肺结节分割网络在捕获特征的过程中特征丢失严重,局部上下文信息获取不足,造成小结节区域分割不准确、边缘分割不精确等问题。针对上述问题,本文基于深度学习技术,针对CT图像中的肺结节分割任务,提出两种肺结节分割网络模型,以提高肺结节的分割准确性,主要内容如下:(1)首先,设计了一种结合
学位
从中古后期至宗教改革时期,罗马大公教会的教士群体在权力、财富、道德等方面招致了社会各阶层的不满与批评。欧美史学界将这一历史现象称为反教士主义。反教士主义是一个基于宗教改革史研究所需而构建出来的概念。反教士主义批评在中古后期经常出现,其批评者包括俗人与部分教士,但并非所有的反教士主义批评都会导致教会的分裂。因此,反教士主义并不会直接推动宗教改革的产生,但反映了中古后期的教会在制度上存在脆弱性,包括长
期刊
蒙古语熟语是在蒙古族漫长的生活经验中提炼成型的,它蕴含着蒙古族独特的文化思维、习俗以及生活智慧,从而成为了世代相传的非物质文化的一部分。含十二生肖名称的蒙古语熟语在熟语研究及词汇研究领域占有重要地位。本文在前人对十二生肖和熟语研究的基础上,以《蒙古语熟语大辞典》中搜集到的2178条含十二生肖名称的熟语作为研究对象,用统计法、描写法、认知语言学方法和文化语言学方法对其数量、分类、结构特征、修辞特征及
学位
人体动作识别是计算机视觉领域重要的研究课题之一。根据数据处理类型,人体动作识别可以划分为基于RGB视频数据和基于骨骼数据两类方法。相较于RGB视频数据方法,基于人体骨骼数据的方法能够规避视频中背景噪声的干扰;同时,Open Pose、Deep Cut等人体骨骼估计算法的日益成熟,使骨骼数据的获取变得更加容易;因此基于人体骨骼数据的方法具有一定的优势,随着图卷积网络的发展,此类方法也取得了质的飞跃。
学位
机器阅读理解是自然语言处理领域的热门研究方向,旨在根据文章和问题预测相关答案,其研究内容更加贴近实际应用,预测的准确率更能够体现模型性能。预训练语言模型利用已有的大量数据,学习通用的语言表示,能够提供一个更好的初始化模型,加速目标任务的收敛;同时,还可以避免在小样本数据集上出现过拟合现象。本文主要面向机器阅读理解任务进行深入研究,具体工作如下:(1)针对现有抽取式机器阅读理解模型无法深层次捕获全局
学位
音乐是意识与情感的产物,与人类生活息息相关,随着科技水平的发展,大数据下的音乐信息检索问题受到了广泛关注。情感是音乐包含的主要语义信息之一,基于情感进行分类能够多角度深层次地探索音乐类别,提高音乐检索的效率,近年来逐渐成为音乐信息检索的研究热点。音乐情感有着主观性强、风格丰富的特点,蒙古族音乐作为风格鲜明的民族音乐之一,因蕴含的文化艺术价值、历史价值及商业价值,逐渐被广大研究者所关注,如何更好地传
学位
手写汉字评价是根据手写汉字与标准汉字特征之间的相关性,实现汉字的评估以及提出如何提高书写水平建议,其在中小学阶段发挥着重要作用,能有效辅导学生理解手写汉字的缺陷进而提高手写汉字的书写质量。而数据到文本生成任务恰好可以利用不同手写汉字特征之间的相关性作为输入,得到手写汉字评价。本文通过总结数据到文本生成方法的现状,分析生成文本与模板的关系,结合基于深度学习的文本生成相关技术,进一步思考如何将深度学习
学位