基于知识图谱的蒙汉双语五畜领域自动问答的研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:xiazaiyigeshishi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字化社会的不断发展,人工智能技术的不断壮大,各个领域的应用场景也变得愈加复杂。在自然语言处理领域中,关于特定领域内的自动问答研究也变得深入和多样。普通的搜索引擎是返回基于关键词的一系列文章,而问答系统通过对自然语言的分析,给出更精确的回答。它是更高级、更精准的搜索引擎,体现了计算机的智能性。知识图谱聚合了大量知识的结构化语义信息,能够对各类事物进行建模,并对各类概念及概念之间的关系进行详细的描述,是通往认知智能的道路上的基石,也推动了人工智能的发展。基于知识图谱的问答能够利用实体间的关系,提供高质量的知识来源,理解所输入问题的语义,完成查询、推理和概念检索等操作,辅助提升检索信息的效率,明确用户查询背后所包含的语义信息,返回正确答案。然而在蒙古文信息处理领域,不仅缺乏与百度百科相似的搜索引擎,而且对知识图谱技术的应用也较为匮乏。为解决以上这两个问题,针对蒙古文领域问答系统的研究十分必要,通过实现问答这种更高级的检索信息的方式,可以深层次理解蒙古文语义知识,促进各民族文化交流,推动中华民族共有精神家园建设。蒙古语的(?)(五畜)是指马、牛、骆驼、绵羊和山羊。蒙古语中,五畜相关的专有词汇十分丰富多彩且具有鲜明的民族特色,如五畜的类别、性别、年龄、毛色、性情等都是具有细致的称呼的,还有很多的通用名称或者方言土语词汇,五畜词汇形成了一个完整的语义场。而本文旨在实现基于知识图谱蒙汉双语五畜领域的自动问答系统(Mongolian and Chinese Five Livestock Question and Answer,MCFLQA),具体的研究内容如下:(1)获取并处理五畜领域数据集。翻译蒙古文数据,形成蒙汉双语结构化数据,方便高效抽取实体、关系、属性。(2)构建蒙汉双语五畜领域知识图谱。通过结构化的方式抽取实体、关系、属性,构建知识图谱,使用图数据库实现可视化。(3)识别问句中的五畜实体。AC多模式匹配算法及文本相似度算法相结合,共同构成五畜实体抽取方法,来支持加速实体识别、问句类型匹配等操作。(4)多分类模型确定查询意图。收集蒙汉双语疑问词,提高句义分析准确率,人工收集1013条问句,用于分类模型的输入。本文分别使用TF-IDF和Embedding特征,建立线性SVM、非线性SVM、Nave Bayes Model、Logistic Regression、Random Forest、XGBoost、LightGBM等分类模型,实验表明,使用Embedding特征建立的线性SVM分类模型分类效果最好,能够通过对问句文本分类判断用户的意图。(5)基于知识图谱实现蒙汉双语自动问答。通过问句理解、语义匹配和答案检索等操作实现问答系统,并随机抽取五种类别的蒙汉双语问答对各300条来测试系统性能,平均正确率为89.2%,为蒙古语五畜知识传播、疾病问答等提供了强有力的平台。
其他文献
识解是人们选择用不同方式对同一个情境进行概念化的认知能力。在翻译过程中,译者会对一个语言表达式有不同的理解和有意识地翻译,这种有意识的做法带有译者的创造性翻译。认知语言学中的识解理论则为人们主观思维的分析提供了可行的方案。本文以潘家洵翻译《玩偶之家》为研究案例,主要从识解理论中的辖域和背景、视角、突显、详略度这四个维度,对比该译本的初译本和复译本,以期探讨认知在翻译过程中对译者的影响。
期刊
<正>企业年金在整个运营管理过程中,涵盖了计划建立、成员变动、日常缴费、投资成交和待遇领取等重要环节,运营层面任何环节出现问题都可能会对企业年金资金的安全性和独立性构成风险。由于企业年金运作模式的特点,涉及的外部管理机构较多,易造成的风险因素不尽相同,所以需要以受托管理机构(以下简称“受托人”)或年金理事会,根据合同和协议的约定对企业年金进行监督和管理,同时,受托人可选择和更换其他外部管理机构。通
期刊
图像分割技术是计算机视觉中最为基础也是最为重要的部分,随着人工智能场景的应用普及,图像分割技术的要求也越来越高。其分割技术的质量,很大程度上会影响后续图像处理结果。目前,关于图像分割技术的研究已经有着数十年的历史,从早期的图形学处理算法,到如今的基于学习的神经网络算法。随着硬件、计算能力的迅猛发展,基于目标检测,语义分割,实例分割为代表的计算机视觉技术,再次进入到人们的视野当中。以深度学习为基础的
学位
问答系统是人工智能领域备受关注的研究方向,也是自然语言处理的重要分支。随着互联网数据的暴涨、硬件设备性能提升以及深度学习技术的成熟,越来越多的智能产品已经融入到人们的生活。目前,主流的自动问答系统都以中文、英语等语言为主。而由于蒙古语文字本身的复杂性、研究人员少以及缺乏公开可用的问答语料库等原因,蒙古文问答系统的研究仍处于起步阶段。本文对蒙古文自动问答进行了如下研究:1.构建了蒙古文问答语料库通过
学位
自然语言理解是使用机器自动理解文本内容的方法或模型的总称,它是实现自然语言与机器进行沟通的重要方法。学科题目作为自然语言文本的一个子集,其中包含了大量的抽象逻辑和知识内容,因此,对各类题目文本的理解也逐渐得到研究者们的重视。题目理解是指使用计算机技术自动理解题目内容,获取题目的关键信息,它是实现题目自动解答的必要过程,也是辅助学科教育的一项重要手段。目前,题目理解已在语文作文、数学几何题目、物理题
学位
铷是诸多高新技术领域中的关键元素。青海察尔汗盐湖卤水中蕴藏着丰富的铷资源,但由于铷浓度极低,且与大量钠、钾、镁等离子共存,提取难度极大。利用已知技术从察尔汗盐湖卤水中直接提取铷难以满足经济性约束的前提,这成为察尔汗盐湖铷资源难以利用的症结之一。本文从理论和实验两个方面分析了NaCl+KCl+RbCl+MgCl2+H2O体系中(K,Rb)Cl和铷钾光卤石固溶体—水溶液平衡对察尔汗盐湖卤水中铷分布的制
期刊
在当前水资源匮乏的背景下,水资源的浪费情况越来越严重,而地下供水管道的漏水不仅会造成水资源浪费还会影响人们的正常生产和生活。近几年,国内外在漏水监测领域的发展现状表明:大多数的漏水监测方法主要借助低功耗、低成本、自组织能力强的无线传感器节点,但节点本身存在着存储有限、能量不足等问题,因此节点采集的漏水信号在传输过程中会丢失部分有效信息。经过研究发现,压缩感知理论作为一种新兴的采样理论,可以弥补节点
学位
学位
兴安盟乌兰浩特王爷庙自清朝康熙年间建立以来,历经历史沉浮与现代化变迁,至今已有三百余年的历史。王爷庙不仅具有藏传佛教文化特色,而且师承自内蒙古包头市梅力更召庙的蒙古语诵经,更是确立了极具特色的蒙古语诵经体系。作为目前内蒙古东部地区唯一使用蒙古语诵经的寺庙,王爷庙传播蒙、藏、汉佛教文化,在蒙古族民众中有着深刻的群众基础和广泛影响。从1691年藏语诵经,到1702年开始推行蒙古语诵经、用蒙古语教学并举
学位
在大数据的时代背景下,数字音乐和在线音乐服务发展迅速,音乐信息检索(Music Information Retrieval,MIR)需求不断增加,愈来愈得到更为广泛的关注,逐步成为重要的研究领域。音乐流派分类(Music Genre Classification,MGC)是MIR领域的重要研究内容之一,在音乐自动分类、基于内容或语义的检索等诸多方面扮演着重要角色。蒙古族音乐作为民族曲风音乐,历史悠
学位