VNC结构多词表达的抽取与分类

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:spring19760128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理作为人工智能的重要研究领域之一,是利用计算机进行语言知识的获取、表示以及应用的技术,为人与计算机之间的信息交流提供了更加高效、便捷的方法。多词表达是自然语言处理中比较普遍且没有精确定义的一个概念,它是指两个(或两个以上的)词单元同时出现一起的概率相对较高的词组合。多词表达涵盖了多种词单元的组合形式。多词表达在自然语言处理领域是一个相当普遍的现象,因此对多词表达的识别与分类就显得格外重要。其中“动词+名词”形式(Verb Noun Construction, VNC)的多词表达所占比例最高,因此对它的研究更具有典型性。多词表达一直是自然语言处理中的一个难点,其语义信息与句法信息等无法直接从其组成词的信息得到,部分多词表达的整体含义甚至与其单独的组成词的含义风马牛不相及,导致必须在机器翻译等领域对多词表达的属性作出准确的预判:是根据组成词的组合含义来解释多词表达,抑或是由第三类完全不相关的含义对多词表达作出解释。本文的主要工作分类为VNC结构多词表达的抽取与分类。首先针对多词表达地抽取工作:作为多词表达本身,相对于其他独立的词语个体而言,其组成词之间的粘连度更高。基于此,本文通过计算组成词间的粘连度,且作为多词表达本身所具有的独立性,从大量的文本中抽取符合要求的候选对象。第二步工作是分类。在获得候选对象的前提下,需要对结果进行分类:分成组合性与非组合性两类。本文分别从语义与上下文语境两个角度分别考量分类性能。此分类对于机器翻译等领域有着至关重要的作用,直接决定翻译的角度与方式:被归类为组合性的多词表达,其含义可以直接根据字面意思来解释;被归类为非组合性的多词表达则需要从习语性的角度进行整体性的释义。
其他文献
视频监控以其直观,准确,及时和信息内容丰富而广泛应用于许多场合。智能视频分析技术是智能视频监控系统的核心。前端嵌入式智能分析方式是前端视频采集编码的同时进行智能相
声音定位技术在视频会议、目标会议、生态监测、现代战场等有着广泛的应用。常用的声音定位系统多采用传感器阵列和基于无线传感网络系统平台作为声音定位系统。随时嵌入式技
由于诱发脑电信号能够反映大脑的功能状态和神经系统病变及损伤之间的关系,所以可以通过对诱发脑电的评估来诊断大脑和神经系统疾病。诱发脑电信号通常被淹没在强背景噪声中,
1998年,Huang等人提出:在对信号进行Hilbert变换之前,先把信号做一个经验模态分解(empirical mode decomposition,EMD)。基于Hilbert变换的信号处理方法,能够有效提取出非线