汉语分词中交集型歧义消解的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:kongfuhei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。   本文针对交集型歧义这一汉语分词中的难点问题,提出了一种规则和统计相结合的交集型歧义消歧模型。首先,根据标注语料库,通过基于错误驱动的学习方法,获取交集型歧义消歧规则库;同时,利用统计工具,构建N-Gram统计语言模型;然后,采用正向/逆向最大匹配方法和消歧规则库探测发现交集型歧义字段;最后,通过消歧规则库和评分函数进行交集型歧义的消歧处理。这种基于混合模型的方法可以探测到更多的交集型歧义字段,并且结合了规则方法和统计方法在处理交集型歧义上的优势。实验表明,这种方法提高了交集型歧义处理的精度,为解决交集型歧义提供了一种新的思路。
其他文献
随着计算机网络的飞速发展和移动通信技术的广泛应用,现代社会已经步入信息时代。人们对信息的安全存储、处理和传输的需求越来越迫切,关于信息安全的研究也日益得到人们的重视
所谓等效思维,指在教学过程中以追求相同的效果为基本出发点,对研究对象内在规律以及操作方案进行同等效用的处理以及设想,从而将复杂的对象转化为简单易懂的原理,达到触类旁
空间数据库是描述、存储和处理空间数据及其属性数据的数据库系统,把对象与其空间位置相结合,按照空间信息建立索引,在给出与地理位置有关的查询条件时能较快的给出查询结果。与
当今许多企业开始要求工作流程自动化。这些企业希望能够采用新的信息管理系统提高内部信息交流效率,缩短流程作业时间,有效监控各项工作进度,从而降低管理成本,提升企业竞争
去年9月24日,是奥运会期间极不平凡的日子,这一天将要进行一场引入注目的角逐。国际奥委会主席萨马兰奇为了表示自己对这个项目的重视,决定亲自给这个项目的优胜者发奖。这
根据目标平台体系结构尤其是存储系统组织结构的差异,并行计算模型可以分成三代:共享存储并行计算模型、分布存储并行计算模型和层次存储并行计算模型。并行计算模型从第一代发
带电粒子在交变场中运动的问题,内容丰富多彩,情景变化多端,生活场景与科技前沿交相映汇,趣味性与探秘性隐含其中,物理问题的对称美、和谐美能够得到彰显.这类问题中,基本模
空间数据库是近年的热点研究领域,而反近邻查询作为空间查询的重要操作被广泛研究。随着研究深入,在反近邻查询的基础上扩展了各种查询处理方法来满足人们新的查询需求,如互
分类器是机器学习领域研究的核心问题。目前已经发展了很多的分类算法。尽管这些分类算法表面上看起来形式多样,但都可以用基于Margin的理论框架来进行解释。本文试图对这种理
门禁系统主要负责对出入通道进行管制,是社区楼宇安全监控系统的一部分。传统的门禁系统通常采用密码识别、卡片识别的方式进行验证,由于密码、卡片容易被盗用、丢失,系统安全性