基于跨语言映射的汉语语义知识自动获取方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:LAP281482184
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义知识库是一种结构化数据库,其中存储的是实体及实体间的相互关系,是当前学术界和企业界的研究热点,其在语义搜索、机器问答等实际的应用中有非常重要的意义。然而现语义知识库大多以英文表示,汉语语义知识库十分缺乏且规模较小,因此构建汉语语义知识库,成为汉语自然语言处理领域亟待解决的问题。机器翻译技术是一种将句子从源语言自动翻译为目标语言的技术方法,一般使用于对自然语句的自动翻译。本文采用机器翻译技术翻译已有知识库从而构建汉语知识图谱。不同于针对句子级别的机器翻译,在语义知识库翻译中待翻译的为知识库中的实体标签。本文的具体研究内容为:(1)为了解决知识库中特定词汇或短语较多及双语平行语料缺少的问题,本文首先利用知识库中实体的源语言标签挖掘互联网中的相关双语语料,构建训练数据。此外考虑到百度百科是较大的汉语知识库,本文利用百科双语词条对知识库翻译模型就行补充,该方法有效提高了知识库翻译的性能。(2)知识库一般采用层状结构,如特定领域知识库一般分为两层(类别,实体),每个类别的实体,均有特定的属性。本文利用知识库的层状结构提高知识库翻译的性能,如本文使用知识库中实体的类别和属性信息解决知识库中人名类别实体的未登录词问题。对知识库中的实体根据其是否属于人名类别,及考虑其性别特征,加入音译模型来翻译此类未登录词。实验表明该方法能有效解决人名实体未登录的问题,从而提高知识库翻译的性能。(3)考虑到知识库翻译任务中待翻译的内容为实体的源语言标签,而实体标签较短,因此缺乏上下文信息,不能有效的将实体标签翻译到目标领域。因此本文利用知识库的图形结构,对实体标签进行扩展。为了提高特定领域知识库翻译的准确性,本文构建基于主题模型的知识库翻译系统,对实体的主题信息利用实体标签扩展训练得到其主题分布。本文使用主题模型为隐含狄利克雷分布模型。本方法有效提取了实体的主题信息,并提高了知识库翻译的性能。
其他文献
随着网络技术的发展,大规模分布式计算及数据共享技术的进步,分布式数据流已经广泛存在于金融风险分析、无线传感器网络、网络入侵检测等应用中,发现其中蕴含的知识是目前国
随着人类基因组计划的完成,生命科学进入了一个前所未有的新时代。生物学家们通过DNA微阵列技术能够同时检测成千上万个基因,使得他们对肿瘤细胞有了一个宏观的认识。然而由于
随着移动计算和移动智能终端的迅速发展,移动网络数据库作为一种新型数据库系统得到广泛应用。但是,由于其所处的无线网络端端延迟大、带宽有限,影响了移动网络数据库的访问
序列图像超分辨率重建是指利用已有的低分辨率(Low Resolution,LR)图像序列中的冗余信息融合成一幅对应的高分辨率(High Resolution,HR)图像的技术。这项技术可以克服成像系
当计算机的应用渗透到社会各领域,信息系统的安全,特别是数据库的安全,至关重要。对数据库进行加密是在非可信环境下保护数据安全的一种有效方法。然而在多数情况下,现有的数
旅客伤亡管理系统是一个基于B/S (Browser/Server,浏览器/服务器)的Web应用系统。随着社会的发展,基于B/S架构的Web应用系统规模逐渐增大,系统开发的复杂程度也达到了前所未有
本论文的研究背景是西南交通大学四川省网络通信技术重点实验室进行的有关下一代Internet(NGI)体系结构的研究工作——“单物理层用户数据交换平台体系结构”(SUPA-Single ph
传统的机器翻译模型使用批量学习的方法进行参数优化。随着稀疏特征等概念的提出,批量学习方法已经远远无法满足现有的需要,在线学习技术逐渐进入了人们的视野。一些研究者提
对于多媒体数据而言,数据的真实性显得尤为重要,很多情况下,我们需要对图像的真实性(也称完整性)进行验证。本文对当前基于数字水印的图像认证方法进行了介绍,主要有奇异值分
学位
电容层析成像技术(ECT)和电阻层析成像技术(ERT)是两种新型电成像测量技术,在多相流检测中具有广阔的应用前景。实际多相流既具有介电常数分布特征,也具有电导率分布特征,将