面向概率型词汇知识库建设的名词语言知识获取

来源 :北京大学 | 被引量 : 0次 | 上传用户：xiomantou_3737

【摘要】

：

语言知识库是众多自然语言处理系统不可或缺的组成部分，同时也是各种自然语言处理技术赖以实现的基础。随着语料库方法和统计语言模型在自然语言处理领域的广泛运用，大规模语言

【作者】

：

王萌

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2010年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语言知识库是众多自然语言处理系统不可或缺的组成部分，同时也是各种自然语言处理技术赖以实现的基础。随着语料库方法和统计语言模型在自然语言处理领域的广泛运用，大规模语言知识的开发和自动获取成为目前自然语言处理技术的瓶颈问题。语言知识库建设已经成为自然语言处理领域最基本、最重要的应用基础研究之一。　　北京大学计算语言学研究所在语言知识库的建设方面积累颇丰，在相同的语法理论体系指导下，开发了一系列以汉语为核心的包含词法、句法和语义等信息的语言知识库，总称为“综合型语言知识库”。本文的研究是以综合型语言知识库为基础，围绕异质资源的集成创新这一主题，从资源集成的“广度”和“深度”两个方向展开研究，主要工作包括：　　第一，从资源集成的“广度”上，主要探索异质数据资源集成的方法，将结构和表现形式各不相同的语言知识库纳入同一个软件平台，建设“综合型语言知识库系统”，在最大程度上挖掘和发挥资源集成的优势，实现信息服务向知识服务的转型，为自然语言处理研究、语言本体研究及语言教学研究提供全方位、多层次的支持。在这一层次上，本文主要侧重于软件系统的功能设计和开发，完成了综合型语言知识库系统主体功能模块的建设。　　第二，从资源集成的“深度”上，将结构化知识（词典知识）与非结构化知识（语料库）相融合，研究词语语法属性的概率化描述方法，构建新的语言资源《概率型现代汉语常用词汇知识库》，作为集成创新的成果。本文选择名词为切入点，研究从语料中自动获取名词语法属性的方法，内容涉及数词与名词构成的“数名结构”，数词、量词与名词构成的“数量名短语”以及名词与名词构成的“复合名词短语”，并对这三种属性关系进行了详细的句法和语义分析。本文在这一层次上主要侧重于研究方法的探索，其范围涉及到自然语言处理领域多方面的内容，创新点包括：　　 1.提出了新的统计量“分散度”，用来区分数词与名词组成的“数名”结构是固定搭配还是自由短语。该统计量对于其它问题，如量词的分类等也具有借鉴意义。　　 2.设计并实现了复杂数量名短语的识别算法，实验结果表明，该方法可以有效地识别这一类存在语义约束的名词短语。本文将该方法应用到大规模的语料库上，从而得到真实的量名搭配分布。　　 3.基于量名搭配的统计数据，本文首次采用基于信息论和知识的计算模型，定量地分析了量词对名词的语义选择限制。此外，本文提出了基于量词的名词概念描述方法，研究了量词在名词语义分类中的作用。这些计量研究的成果为量词的定性研究和分析提供了补充和佐证。　　 4.针对统计指标不能有效获取低频复合名词短语的问题，本文提出了新的解决方法，将其视作一个分类问题，利用统计指标获取典型的、高频的复合名词短语作为训练数据，来帮助发现低频的复合名词短语，实验结果说明该思路是有效的。　　 5.对于汉语复合名词短语的语义解释，本文首次采用动态的策略，提出了“基于动词的释义短语”的方法，对复合名词短语进行语义解释，该方法不仅可以为复合名词短语提供多种可能的语义解释，而且能够反应相似的复合名词短语之间细微的语义差别。　　综合型语言知识库系统既是本文的研究基础，又是本文的研究目标。作者在资源集成两个层次上的研究工作，不仅为后续工作提供软件支持，也为其它词类的语法属性之计量研究提供方法上的借鉴。

其他文献

基于等级保护的安全管理支撑平台设计

随着信息技术的不断发展，信息安全问题越来越受到重视。传统的单一安全防护技术已经不能对保护目标进行有效防护，安全管理平台应运而生。它统一管理各类安全设备，协调各类安全技

学位

等级保护安全管理支撑平台企业安全架构信息安全

光电弱小目标检测算法研究及系统实现

由于在军事、医学、天文等方面的广泛应用，弱小目标检测成为了图像处理领域中一项重要的研究课题。对于实际的武器系统而言，如何充分发挥光电目标检测技术的优势，提高目标的检测

学位

弱小目标检测快速形态滤波BP人工神经网络实时系统图像处理

面向安全协议的移动进程演算的符号化理论

Applied pi-演算是用来表示和分析安全协议的演算。它从pi-演算中继承了通信，并发以及限制算子。它引入了原语函数和等值理论来表示安全协议中的相关操作。在applied pi-演算

学位

符号化语义符号化互模拟证明系统安全协议复制算子

面向多核平台的通用异构操作系统内核研究

随着集成电路的摩尔定律的继续发展，单个芯片内部集成的处理器核数量越来越多，未来一块芯片就可以容纳上千个核；另一方面，考虑到功耗和性能的平衡，这些核中的一些核的计算能力比较

学位

操作系统异构内核自适应调整多核平台应用程序性能

基于形状特征的人体行为识别方法研究

人体行为识别指对人体运动模式进行分析和识别,是当前计算机视觉领域的研究热点,在智能监控、高级人机交互、体育运动分析等方面具广阔的应用前景。本文研究的目的就是在成功

学位

人体行为识别傅里叶描述子几何参数隐马尔科夫模型径向基神经网络

基于IP的视频会议系统研究

随着人们对视频和音频信息的需求愈来愈强烈，追求远距离视音频的同步交互成为新的时尚。近些年来，依托计算机技术、通信技术和网络条件的发展，集音频、视频、图像、文字、数据为

学位

视频会议系统IP网络总体结构组播机制

抵御侧信道攻击的快速安全椭圆曲线密码设计

1985年，Miller和Koblitz分别独立地提出了椭圆曲线密码体制(elliptic curvecryptosystems，ECC)。相对于其它的公钥密码体制(如RSA)，ECC只需较短的密钥就可以达到较高的安全级别

学位

椭圆曲线密码标量乘二进制方法侧信道攻击并行计算

网络虚拟化中虚拟机间高效通信技术研究

随着硬件技术的发展，计算机的处理能力越来越强，但资源利用率并不高效。虚拟化技术通过服务器整合，将原来的多台服务器以虚拟机的方式整合在少量物理机上，并在虚拟机之间提供了很

学位

网络虚拟化虚拟机传输性能数据交互

基于风光互补通信电源的太阳能控制模块研究

近年来，随着无线通信的快速发展，在电网未能覆盖到的边远地区，利用风能、太阳能光伏发电设备组成的通信电源系统，在解决通信系统供电中正发挥着越来越重要的作用。可再生能源利用

学位

风光互补光伏电池最大功率跟踪通信电源太阳能控制模块

关系数据向XML数据的转换

自计算机技术出现以来，各种应用不断的推广，使各种数据信息资源也不断的膨胀，大量的数据信息需要存储和管理，关系数据库很好的解决了信息的存储和一些管理上的应用。在这些大量的

学位

关系数据库数据转换信息共享程序设计

面向概率型词汇知识库建设的名词语言知识获取

与本文相关的学术论文