检索与生成相融合的蒙古文自动问答研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:qq104397622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是人工智能领域备受关注的研究方向,也是自然语言处理的重要分支。随着互联网数据的暴涨、硬件设备性能提升以及深度学习技术的成熟,越来越多的智能产品已经融入到人们的生活。目前,主流的自动问答系统都以中文、英语等语言为主。而由于蒙古语文字本身的复杂性、研究人员少以及缺乏公开可用的问答语料库等原因,蒙古文问答系统的研究仍处于起步阶段。本文对蒙古文自动问答进行了如下研究:1.构建了蒙古文问答语料库通过对现有中文问答语料库进行收集、筛选、翻译、校正,构建了含有10万个问答对的蒙古文日常问答语料库,为后续研究提供了数据支撑。2.研究了基于机器学习的检索式蒙古文问答模型检索式问答模型采用TF-IDF方法实现文本向量化,并将用户输入问题与语料库中的问题进行相似度计算,进而匹配最合适的答案返回给用户。实验表明,该模型具有回复准确率高、实现简单等特点。3.研究了基于深度学习的生成式蒙古文问答模型检索式问答模型无法对超出语料库范围的问题提供有价值的回复。对此,本文研究了基于深度学习的生成式蒙古文问答模型,分别实现了基于循环神经网络的模型与基于Transformer的模型。基于循环神经网络的模型使用了LSTM、Bi LSTM、Bi GRU作为网络单元,同时也引入了预训练的Word2vec词向量与Attention机制。实验发现,基于循环神经网络模型中以Bi GRU作为网络单元并引入Attention机制的模型能够更好的理解用户输入的问题,回复的内容更佳流畅,效果最佳。而Transformer模型相比循环神经网络模型在各个方面都得到了提升,其生成的蒙古文质量更好,在困惑度指标上提高了38.51。4.研究了融入蒙古文词切分的蒙古文自动问答模型针对蒙古文问答语料稀缺而出现的未登录词问题,本文在Transformer蒙古文问答模型的基础上对蒙古文问答语料分别使用了蒙古文部分切分、BPE子词切分和Unigram子词切分三种方法进行了切分实验。实验结果表明:对蒙古文进行词切分能够解决未登录词问题,从而提高问答系统性能;对比三种切分方法,基于Unigram子词切分的蒙古文问答模型效果最优,相比部分切分和BPE子词切分在困惑度指标上分别提升了0.8和0.52。5.研究实现了检索与生成相融合的蒙古文自动问答模型为了充分利用了两种模型的优点,提高蒙古文问答模型的性能,本文将检索式蒙古文问答模型与生成式蒙古文问答模型进行了融合,研究了一种融合式的蒙古文问答模型。实验结果表明,融合式模型相比另外两种模型在性能上得到了一定的提升。最后,为了方便用户交互,本文将训练好的模型部署到服务器,并开发了一款蒙古文自动问答平台。
其他文献
音乐是意识与情感的产物,与人类生活息息相关,随着科技水平的发展,大数据下的音乐信息检索问题受到了广泛关注。情感是音乐包含的主要语义信息之一,基于情感进行分类能够多角度深层次地探索音乐类别,提高音乐检索的效率,近年来逐渐成为音乐信息检索的研究热点。音乐情感有着主观性强、风格丰富的特点,蒙古族音乐作为风格鲜明的民族音乐之一,因蕴含的文化艺术价值、历史价值及商业价值,逐渐被广大研究者所关注,如何更好地传
学位
手写汉字评价是根据手写汉字与标准汉字特征之间的相关性,实现汉字的评估以及提出如何提高书写水平建议,其在中小学阶段发挥着重要作用,能有效辅导学生理解手写汉字的缺陷进而提高手写汉字的书写质量。而数据到文本生成任务恰好可以利用不同手写汉字特征之间的相关性作为输入,得到手写汉字评价。本文通过总结数据到文本生成方法的现状,分析生成文本与模板的关系,结合基于深度学习的文本生成相关技术,进一步思考如何将深度学习
学位
蒙古文词切分是蒙古文信息处理的基础,也是蒙汉机器翻译等下游任务的关键。近年来,深度神经网络模型在自然语言处理领域得到广泛应用,在分词研究任务中也取得了不错的成绩。本文首先利用多种深度学习模型对蒙古文词切分方法进行研究,通过对比蒙古文部分切分、BPE切分和神经网络切分方法对于蒙汉机器翻译性能的影响,并提出了一种改进的神经网络蒙古文词切分基础上过滤停用词的蒙汉神经机器翻译方法。主要研究内容有:首先,将
学位
随着教育领域的智能化,教育系统及线上学习平台中试题资源呈指数增长,如何避免数据资源的浪费,合理有效利用海量教育数据获取个性化试题资源、为知识水平各异的学生分配合适的题目并实现个性化学习已成为亟需解决的研究课题。试题难度作为衡量试卷合理性、考试公平性的准则,在传统的试题难度标注中主要依靠专家标记,具有主观性强且劳动密集的局限性。本研究通过摘要抽取方法抽取题目关联课程资源的文本信息,丰富试题的上下文语
学位
目的:评价富血小板血浆(platelet-rich plasma, PRP)疗法联合腰交感神经节射频热凝术治疗糖尿病足溃疡的临床疗效。方法:选择2021年1月7日至2022年3月31日于上海市浦东医院疼痛科接受治疗的40例糖尿病足溃疡病人,按随机数字表法分为两组,各20例,射频组(R组)采用腰交感神经节射频热凝术,联合组(P组)在射频组基础上联合PRP治疗。记录两组病人治疗前和治疗后1、2、4、6
期刊
算法识别旨在通过一种自动化的方式实现等价算法语义的识别,它是一种评估算法行为和程序功能的有效手段,也是软件工程领域中一项重要的子课题。算法识别在程序理解、重复代码检查、剽窃检测以及程序诊断和验证等方面具有广泛应用。不仅在工业软件的开发和维护领域,计算机编程教育领域同样亟需探索算法识别理论及相关技术。一个编程问题会有许多个相似或独特的程序代码,差异性显著的程序是算法逻辑不同的体现,识别出这些程序有助
学位
词向量是自然语言处理任务的基础。跨语言词向量借助迁移学习将单语词向量映射到一个共享的低维空间,在不同语言间进行语法、语义和结构特征的迁移,可以对跨语言语义信息进行建模,是解决低资源语言信息处理和语言鸿沟引起的跨语言信息处理的重要基础环节。然而目前跨语言词向量的学习性能较大程度上依赖于大规模的平行语料或高质量的种子词典等,对于平行语料较少的蒙汉跨语言词向量的学习效果不太明显。蒙古语为低资源语言,很难
学位
识解是人们选择用不同方式对同一个情境进行概念化的认知能力。在翻译过程中,译者会对一个语言表达式有不同的理解和有意识地翻译,这种有意识的做法带有译者的创造性翻译。认知语言学中的识解理论则为人们主观思维的分析提供了可行的方案。本文以潘家洵翻译《玩偶之家》为研究案例,主要从识解理论中的辖域和背景、视角、突显、详略度这四个维度,对比该译本的初译本和复译本,以期探讨认知在翻译过程中对译者的影响。
期刊
<正>企业年金在整个运营管理过程中,涵盖了计划建立、成员变动、日常缴费、投资成交和待遇领取等重要环节,运营层面任何环节出现问题都可能会对企业年金资金的安全性和独立性构成风险。由于企业年金运作模式的特点,涉及的外部管理机构较多,易造成的风险因素不尽相同,所以需要以受托管理机构(以下简称“受托人”)或年金理事会,根据合同和协议的约定对企业年金进行监督和管理,同时,受托人可选择和更换其他外部管理机构。通
期刊
图像分割技术是计算机视觉中最为基础也是最为重要的部分,随着人工智能场景的应用普及,图像分割技术的要求也越来越高。其分割技术的质量,很大程度上会影响后续图像处理结果。目前,关于图像分割技术的研究已经有着数十年的历史,从早期的图形学处理算法,到如今的基于学习的神经网络算法。随着硬件、计算能力的迅猛发展,基于目标检测,语义分割,实例分割为代表的计算机视觉技术,再次进入到人们的视野当中。以深度学习为基础的
学位