中文多词表达抽取研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:fanke26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多词表达是指由两个及以上具有一定的句法和语义关联的词语构成的意义相对完整的语义单元。多词表达问题是目前自然语言处理领域最棘手的问题之一,多词表达会导致分词和语义等方面的错误增加,进而影响机器翻译和句法分析等实际应用的性能。在中文多词表达里,“动词+名词”以及“名动词+名词”的多词表达最为常见,因此,本文主要以中文“动词+名词”以及“名动词+名词”的多词表达为研究对象,包含多词表达的自动抽取和应用。本文的研究的主要内容有以下的几个方面:1、基于双语语料多词表达候选的抽取。利用印欧语言的边界来帮助确定汉语中完整语义单元的边界。本文利用短语对齐工具对中英双语句对齐语料进行对齐处理,然后抽取多词表达候选,并与基于词对齐工具的方法进行比较。本文对北大中英对齐语料进行实验,基于短语对齐抽取的多词表达候选F值为55.95%,基于词对齐抽取的多词表达候选F值为45.32%。2、基于句法分析的多词表达候选的抽取。由于句法分析能够识别出句子的语法结构,对语言的处理可以深入语言的内部结构。本文利用三种句法分析器:哈工大句法分析器,伯克利句法分析器,斯坦福句法分析器分别对北大对齐语料的中文部分进行句法分析,然后再抽取特定依存关系的词语对作为多词表达候选,正确率分别为哈工大42.40%,伯克利41.00%,斯坦福39.73%。3、构建中文“动词+名词”以及“名动词+名词”多词表达分类数据集。构建过程分两步:统计过滤、多词表达分类。基于统计的方法处理大规模语料时比较方便快捷,且不依赖具体领域。本文采用内部度量方法互信息,外部度量方法C-value等进行多词表达候选的过滤。多词表达分类是将过滤后的多词表达进行分类:定中类和述宾类,来构建分类数据集,这对以后的研究具有重要的意义。4、句法分析结果纠错。将本文自动抽取的中文多词表达与句法分析结果进行比较,进行句法分析纠错。本文对哈工大句法分析器的分析结果与抽取的多词表达进行比较,结果发现哈工大的分析结果中出现本文抽取出的多词表达的定中结构正确率为98.87%,述宾结构正确率为99.98%。
其他文献
元数据,一般认为是“关于数据的数据”,它是用来说明数据的内容、品质、产生过程和背景、访问和获取方式及其他相关信息的数据。现今,元数据已经应用到各个领域中,并且对各个领域
近年来,多核处理器的应用已经越来越广泛,为了充分发挥多核处理器的效率,提高嵌入式操作系统微内核性能已成为一个重要的研究课题,而多核处理器的任务调度机制的好坏是影响嵌
随着信息爆炸时代的到来,资源的类型和人们获取信息的途径有了翻天覆地的变化。网络音乐电台,作为新型音乐传播媒介,以其简单的操作和及时的音乐更新,大大的改变了人们收听音
计算机视觉(Computer Vision)在军事、医疗、安防、视频监控及人机交互等领域有着越来越广泛的应用,导致计算机视觉技术越来越受到极大的重视。运动目标检测与跟踪是计算机视
对于一些特殊的绝缘材料和电气设备的绝缘系统来说,正弦波频率和电压幅值是绝缘老化加速的因子。在进行加速老化实验的过程中,为了在不改变绝缘失效机理的条件下尽快得出绝缘
随着网络规模和复杂性的不断增长,对网络测量提出了越来越高的要求,并极大地推动了网络测量技术的研究与发展。由于传统的网络测量方法受到的限制比较多(主要表现在传统的网络
随着社会的发展,科技的进步以及计算机网络的普及,利用人体生物特征来鉴别个人身份的生物识别技术成为安全验证的首选方式。同其它生物特征识别技术相比,人脸识别技术具有操作简
人脸识别是模式识别领域中的一个涉及面非常广的重要研究方向。由于人脸图像在采集时受环境、光照、表情和姿态等多种变化的影响,使得人脸识别研究极富挑战性。如何快速准确
随着网络信息技术的向前发展,尤其是互联网应用的不断增加和网页信息的指数级增长,要在互联网中准确、快速地找到自己所需要的信息,搜索引擎是一种必不可少的工具。但是,百度
医学图像配准与拼接技术作为一个极具特色的研究领域,它不仅有效地综合了各种医学影像信息,同时为临床诊断提供了新思路,是当代医学领域的前沿性课题。本论文主要研究了基于