论文部分内容阅读
随着信息技术的迅猛发展,蒙古文信息化技术也得到了快速发展。这对蒙古文资源建设提出了新的要求,同时也有机会在加工和利用语言资源时用到高端技术。通过语言智能知识系统开发信息资源吸引了全球目光,并且已经渗入到了语言技术和人们生活的方方面面。为了描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系,Google公司于2012年首先提出了知识图谱(knowledge graph)的概念。知识图谱在语义搜索、知识工程、智能问答、数据挖掘等领域具有广泛的应用。目前,蒙古文知识图谱的研究仍然处于起步阶段,尚无能够满足应用需求的蒙古文知识图谱。构建蒙古文知识图谱涉及到信息抽取、数据融合、知识表示以及知识库构建等诸多方面。蒙古文化在千百年来世代相传,是蒙古族先民留给子孙后代的无价瑰宝,是人类文明的重要精神财富。本文借鉴其它语言知识图谱的构建方法,并结合蒙古文自身的语言特点,构建了蒙古文化知识图谱,继而搭建了蒙古文化知识图谱服务平台(Mongolian culture of knowledge graph,MCKG)。我们研究了构建蒙古文化知识图谱所需的关键技术和方法,包括建立蒙古文化知识模型、实体识别以及关系和属性获取等。我们根据前人研究结果构建了蒙古文化知识图谱本体,并在此基础上以蒙古习俗和蒙古文化相关的书籍为来源,基于词典和规则抽取实体、关系和属性。我们共挖掘出235个概念、21721个实体、89个实体之间的关系、36097个三元组,并将各类实体和关系以RDF(Resource Description Framework)格式存储在关系数据库,搭建MCKG知识图谱服务平台。最后还利用构建的资源进行了实体自动识别实验。该研究具有重要的理论意义和应用价值。本研究将丰富的蒙古文化遗产的部分内容录入知识图谱系统,可以利用新理论、新方法整理、搜索和学习。而且对促进蒙古语语义研究的发展,提高蒙古语智能信息服务水平,促进民族发展等具有长远意义。