面向概率型词汇知识库建设的名词语言知识获取

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiomantou_3737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言知识库是众多自然语言处理系统不可或缺的组成部分,同时也是各种自然语言处理技术赖以实现的基础。随着语料库方法和统计语言模型在自然语言处理领域的广泛运用,大规模语言知识的开发和自动获取成为目前自然语言处理技术的瓶颈问题。语言知识库建设已经成为自然语言处理领域最基本、最重要的应用基础研究之一。   北京大学计算语言学研究所在语言知识库的建设方面积累颇丰,在相同的语法理论体系指导下,开发了一系列以汉语为核心的包含词法、句法和语义等信息的语言知识库,总称为“综合型语言知识库”。本文的研究是以综合型语言知识库为基础,围绕异质资源的集成创新这一主题,从资源集成的“广度”和“深度”两个方向展开研究,主要工作包括:   第一,从资源集成的“广度”上,主要探索异质数据资源集成的方法,将结构和表现形式各不相同的语言知识库纳入同一个软件平台,建设“综合型语言知识库系统”,在最大程度上挖掘和发挥资源集成的优势,实现信息服务向知识服务的转型,为自然语言处理研究、语言本体研究及语言教学研究提供全方位、多层次的支持。在这一层次上,本文主要侧重于软件系统的功能设计和开发,完成了综合型语言知识库系统主体功能模块的建设。   第二,从资源集成的“深度”上,将结构化知识(词典知识)与非结构化知识(语料库)相融合,研究词语语法属性的概率化描述方法,构建新的语言资源《概率型现代汉语常用词汇知识库》,作为集成创新的成果。本文选择名词为切入点,研究从语料中自动获取名词语法属性的方法,内容涉及数词与名词构成的“数名结构”,数词、量词与名词构成的“数量名短语”以及名词与名词构成的“复合名词短语”,并对这三种属性关系进行了详细的句法和语义分析。本文在这一层次上主要侧重于研究方法的探索,其范围涉及到自然语言处理领域多方面的内容,创新点包括:   1.提出了新的统计量“分散度”,用来区分数词与名词组成的“数名”结构是固定搭配还是自由短语。该统计量对于其它问题,如量词的分类等也具有借鉴意义。   2.设计并实现了复杂数量名短语的识别算法,实验结果表明,该方法可以有效地识别这一类存在语义约束的名词短语。本文将该方法应用到大规模的语料库上,从而得到真实的量名搭配分布。   3.基于量名搭配的统计数据,本文首次采用基于信息论和知识的计算模型,定量地分析了量词对名词的语义选择限制。此外,本文提出了基于量词的名词概念描述方法,研究了量词在名词语义分类中的作用。这些计量研究的成果为量词的定性研究和分析提供了补充和佐证。   4.针对统计指标不能有效获取低频复合名词短语的问题,本文提出了新的解决方法,将其视作一个分类问题,利用统计指标获取典型的、高频的复合名词短语作为训练数据,来帮助发现低频的复合名词短语,实验结果说明该思路是有效的。   5.对于汉语复合名词短语的语义解释,本文首次采用动态的策略,提出了“基于动词的释义短语”的方法,对复合名词短语进行语义解释,该方法不仅可以为复合名词短语提供多种可能的语义解释,而且能够反应相似的复合名词短语之间细微的语义差别。   综合型语言知识库系统既是本文的研究基础,又是本文的研究目标。作者在资源集成两个层次上的研究工作,不仅为后续工作提供软件支持,也为其它词类的语法属性之计量研究提供方法上的借鉴。
其他文献
随着信息技术的不断发展,信息安全问题越来越受到重视。传统的单一安全防护技术已经不能对保护目标进行有效防护,安全管理平台应运而生。它统一管理各类安全设备,协调各类安全技
由于在军事、医学、天文等方面的广泛应用,弱小目标检测成为了图像处理领域中一项重要的研究课题。对于实际的武器系统而言,如何充分发挥光电目标检测技术的优势,提高目标的检测
Applied pi-演算是用来表示和分析安全协议的演算。它从pi-演算中继承了通信,并发以及限制算子。它引入了原语函数和等值理论来表示安全协议中的相关操作。在applied pi-演算
随着集成电路的摩尔定律的继续发展,单个芯片内部集成的处理器核数量越来越多,未来一块芯片就可以容纳上千个核;另一方面,考虑到功耗和性能的平衡,这些核中的一些核的计算能力比较
人体行为识别指对人体运动模式进行分析和识别,是当前计算机视觉领域的研究热点,在智能监控、高级人机交互、体育运动分析等方面具广阔的应用前景。本文研究的目的就是在成功
随着人们对视频和音频信息的需求愈来愈强烈,追求远距离视音频的同步交互成为新的时尚。近些年来,依托计算机技术、通信技术和网络条件的发展,集音频、视频、图像、文字、数据为
1985年,Miller和Koblitz分别独立地提出了椭圆曲线密码体制(elliptic curvecryptosystems,ECC)。相对于其它的公钥密码体制(如RSA),ECC只需较短的密钥就可以达到较高的安全级别
随着硬件技术的发展,计算机的处理能力越来越强,但资源利用率并不高效。虚拟化技术通过服务器整合,将原来的多台服务器以虚拟机的方式整合在少量物理机上,并在虚拟机之间提供了很
近年来,随着无线通信的快速发展,在电网未能覆盖到的边远地区,利用风能、太阳能光伏发电设备组成的通信电源系统,在解决通信系统供电中正发挥着越来越重要的作用。可再生能源利用
自计算机技术出现以来,各种应用不断的推广,使各种数据信息资源也不断的膨胀,大量的数据信息需要存储和管理,关系数据库很好的解决了信息的存储和一些管理上的应用。在这些大量的