基于英汉双语平行语料库的句法级知识挖掘和抽取研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:up2hyolee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理和文本挖掘技术的发展,从非结构化文本中挖掘和抽取相应的知识日益成为一种趋势,而基于面向网络构建的英汉双语平行语料库,从中挖掘和抽取词汇、简单短语和复杂短语等句法级上的相应知识正是在这一趋势下的一种探究。挖掘和抽取的知识不仅有利于知识库构建、知识服务、信息检索、信息计量等情报学中的相关研究开展,而且有助于自然语言处理中的歧义消解、知识抽取和机器与辅助机器翻译问题的解决。基于各种模型和算法,结合多种研究方法,使用各类别的语料库,本文完成了词汇、简单短语和复杂短语三个句法层面上的知识挖掘和抽取。在引言中说明了开展本研究的背景、意义、创新点、整体流程、文章的整体框架和所使用的资源。在文献综述章节里,围绕着词汇、简单短语结构和复杂短语结构三个句法层面的知识挖掘和抽取进行了多角度的相关研究综述。面向网络获取了英汉双语通用和专门平行语料,构建了相应的英汉双语平行语料库。在该部分主要围绕确定抓取网站、制定抓取底表、通过抓取工具获取网页、抽取英汉双语平行语料对、清洗英汉双语平行语料对和对英汉双语平行语料对进行去重处理等问题展开了探讨。在词汇这一级,结合情报学中的相应方法和知识,挖掘出了英汉双语词汇在句法功能分布复杂度上呈现洛特卡现象的规律。在该部分,基于英汉双语平行语料库、宾州大学英汉树库和清华汉语树库,统计了英语和汉语词汇句法功能的分布,分析了英语和汉语词汇的句法功能分布复杂度情况,计算得出了英语和汉语词汇的平均句法功能分布复杂度值,揭示了词汇句法功能分布复杂度所呈现的洛特卡现象。在简单短语这一级,通过介宾短语结构,基于条件随机场这一机器学习模型,构建了英汉双语介宾短语结构知识抽取模型,并给出了英汉双语介宾短语结构知识抽取的流程。本文在该部分统计了介宾短语结构的内部和外部句法特征、给出了训练语料的预处理格式、详细说明了自身特征模板和添加特征模板的具体构成内容并与最大熵的性能进行了对比。在复杂短语这一级,基于已有聚类算法,通过构建词汇和词性特征知识下的类别知识挖掘模型,完成了面向英汉双语专门平行语料的类别知识挖掘的探究。本文通过具体的实验证实了英汉双语词汇特征在类别知识挖掘中的性能,并给出了造成类别知识挖掘性能有差异的原因,同时使用词汇和词性的特征知识,在英汉名词,英汉名词、动词,英汉名词、动词和形容词这三种词汇和词性特征组合的基础上,探究了词性知识在类别知识挖掘上的具体表现。
其他文献
大庆精神展现了哲学理性和批判精神的魅力,并体现为大庆精神所具有的求真务实精神、探索开拓精神和哲学批判精神。这些精神内核给了大庆精神以意义维度,给了大庆人以精神关怀
伴随着社会经济的快速发展,我国城市化进程不断加快,园林企业也应运而生。当前,随着园林企业竞争日益激烈,园林企业要想在市场竞争中具备自身竞争力,加强成本管理是关键。本文对当
在社会化媒体成为最受欢迎的信息传播和网络互动方式的今天,UGC信息也如洪水般泛滥。UGC的信息爆炸与价值利用间的矛盾已经成为了社会化媒体亟待解决的问题。UGC信息源中知识
本文以福建近现代图书馆事业和图书馆学的创始人之一、原福建协和大学图书馆和后来的福建师范学院(大学)图书馆馆长金云铭先生的学术思想为研究对象,首先介绍金云铭先生的人
敦煌写本《诸山圣迹志》是敦煌名僧范海印和尚于五代后梁末年到后唐同光时期游历各地州郡寺院、名山圣迹的记录,属于行记一类作品。文书中不但记述了五台山文殊道场的来历,对五
随着国内大型建设项目的不断增加,对于建设项目的设计方面要求也不断增加,设计管理的发展却稍显落后。本文从建设项目设计管理的特点入手,针对设计管理的现状中存在的问题,从
随着网络信息技术的不断发展以及人们需求的逐渐增长,对海量无序、质量良莠不齐的网络信息资源进行有效地组织与管理已迫在眉睫。为解决这一难题,图书情报界人士提出了许多解
大型船舶涂装维修用高空作业车,采用了以H8/532系列CPU为核心的微电脑控制装置,通过电磁阀对车体的作业斗摆动、转向、行驶、变幅、伸缩、悬臂回转等动力系统进行控制,并由传
本论文从基础的静电原理谈起,针对其物理中的相关理论和应用做了分析比较,同时对静电效应在社会生产中的广泛应用和危害防治做了概括总结。
在语言学研究领域中,古文献研究一直占有很重要的地位。到目前为止,在维吾尔文献研究领域里主要是古代突厥文、古代维吾尔文、中古及近代维吾尔文的文献。本研究采用语言学、