汉语词和短语的歧义消解研究

被引量 : 13次 | 上传用户:lengyue982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息网络技术的飞速发展使信息的发布和共享超越了时空限制,基于自然语言处理技术的文档高质量自动处理成为热点研究课题。自然语言中普遍存在着歧义现象。计算机处理自然语言文档时,必然要面对和解决各种歧义问题。歧义消解成为自然语言处理中的核心任务之一。语言中的歧义错综复杂,本文认为,简单的单一分析不可能认识语言歧义的全貌,因而也就不可能高质量地消解歧义,只有对歧义进行多视角综合考察,才能达到此目标。为此,本文从纵横两个视角进行歧义研究。一、基于全信息理论的横向视角:信息有语法、语义和语用三个层次,语言信息同样如此。而每个层次都存在歧义,即有语法歧义,语义歧义和语用歧义。这个角度有助于从语言逻辑层面更清晰地研究歧义特征。二、基于语言单元的纵向视角:汉语的主要语言单元包括词、短语及句子等。而歧义在每一级单元都存在,即有词汇层歧义、短语层歧义以及句子层歧义等。纵向角度便于研究的具体实现,并有可能探索通用的消歧方法。综合这两个角度,本文研究的内容包括,从语法层看的词汇边界歧义和短语边界歧义,从语义层看的词汇多义歧义、短语功能歧义及短语结构歧义。在各种歧义的研究中,本文主要围绕歧义分类、歧义侦测和歧义消解三个问题进行。歧义分类研究各种歧义的特征,歧义侦测是为了发现歧义及确定歧义的位置,而基于歧义特点对侦测出的歧义进行消解则是语言处理的中心任务。从两个视角出发,集中解决三个问题构成了本文的研究框架。本文的主要研究成果包括以下几点:1.对汉语语言信息自动处理时的歧义在特征上进行了分类。将词汇级语法歧义分为交叠歧义和包络歧义两大类。提出了新的歧义侦测和消歧方法;2.利用级联分类方法改进了基于经验定义的短语识别的性能,有效降低了学习器训练时间,进一步从语义角度研究了复合名词短语定界歧义问题,同时实现了跨语料的短语识别及歧义研究;3.用粒度短语的观点处理汉语短语定义模糊的问题,实现了粒度名词短语的定义和识别方法;4.从短语功能角度完成句子骨架成分的识别,消解短语在句子中的句法功能歧义。
其他文献
<正>2016年8月23日,甘肃兰州供电公司业扩全流程信息公开与实时管控平台正式顺利上线运行,在甘肃省率先实现了"五位一体"机制在业扩全流程环节的深化融合。业扩全流程信息公
随着面向服务计算技术的兴起,服务发现问题就越来越引起重视,随着语义网技术和面向服务计算技术相结合,以及建立分布式环境的需要,Web服务的分布式服务发现问题显得愈加突出
本文在综合了价格促销对品牌资产影响的研究成果的基础上,归纳出企业价格促销过程中应该考虑的八个相关因素,并据此提出了企业开展价格促销的策略建议。
<正>1发生规律葡萄白粉病为真菌性病害。该病害近年来发生范围广泛,无论鲜食葡萄还是酿酒葡萄均严重受害。葡萄白粉病的生物学特征是喜高温、耐干旱,在15~40℃条件下均可存活
对一起500 kV电容式电压互感器(CVT)投运后二次电压值异常的故障做了简要说明,结合电容式电压互感器的结构和工作原理对其进行了分析,发现CVT电容分压器电容单元安装错误是导
目的 针对信息在企业管理中所起的重要作用 ,介绍了基于 SCM的决策支持系统 .方法 依据供应链管理的原理 ,运用数据仓库、数据挖掘和联机分析处理技术建立起决策支持系统的
第一部分大鼠骨髓间充质干细胞的培养鉴定及其向胆碱能样神经元的诱导分化目的:从大鼠骨髓中分离培养骨髓间充质干细胞(bone marrow mesenchymal stem cells,BMSCs)并探讨其
本文首先从遥感技术的定义及发展以及地理信息系统的定义及发展这两个方面分析了信息化测绘技术的定义及其发展情况,接着又对信息化测绘技术在农业土地规划管理中的运用进行
中职体育教学应当结合其职业定位和专业特点,不仅要增强学生身体素质,让学生掌握体育的基本知识和运动技能,更要提高学生的心理素质和职业能力。本文以中职汽车维修专业为例,
第一部分甲氨蝶呤联合环磷酰胺治疗强直性脊柱炎的临床研究目的:1.评价甲氨蝶呤(MTX)、环磷酰胺(CTX)及二者联合(MTX+CTX)治疗强直性脊柱炎(AS)的临床疗效和安全性;2.探讨该