现代汉语自动分词歧义分析及其消歧处理研究

来源 :兰州理工大学 | 被引量 : 10次 | 上传用户:lhyhh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理的目标之一就是找到一种方法把由简单词序列构成的句子中加上丰富的注释符号,使句子表达的含义从有结构标注的句子中比无结构信息标注的句子中更易于抽取出来。众所周知,汉语的句子是由字串构成的,词与词之间没有空格隔开。因此汉语的自动分词就成了汉语信息处理的第一步,同时也是后续的词性标注、句法分析和语义分析的基础。其中,分词歧义排歧和未登录词识别成为汉语自动分词的两大障碍,本文集中研究了分词歧义的特征与消歧处理。首先给出了汉语分词及其歧义类型的形式化描述;然后分别对两种主要分词歧义及其消歧处理做了详细的研究;最后给出了实验结果。对于组合型歧义,通过语料库学习到歧义字段的消歧规则列表并对其进行优化,然后用来纠正这些歧义字段的分词错误。与语言学专家总结的规则相比,自动学习到的规则更客观、更全面、更节省人力,是今后计算语言学研究的发展方向。对于交集型歧义,首先通过语料库学习到了每一类交集型歧义的消歧规则,然后用于纠正交集型歧义字段。同时也采用了最大概率算法和查表的方法对交集型歧义字段进行排歧,实验取得了较好的效果。
其他文献
使用不同硅铝比的HZSM-5分子筛制备了系列的双功能复合催化剂Zr/HZSM-5,采用X射线衍射(XRD)、氨气程序升温脱附(NH3-TPD)、傅里叶红外光谱(FT-IR)和N2物理吸附等技术对催化剂
以夏热冬暖地区典型城市广州为例,使用动态能耗模拟软件DeST-C对该地区某户内变电站配电装置楼建筑能耗进行模拟,研究在无自然通风条件下外围护结构热工性能对空调能耗的影响
随着改革开放的不断深入,国家社会经济的飞速发展,我国现有经济形势发展已经呈现出新常态。在经济新常态背景下,企业的经营发展都受到挑战,对于企业来说,这是挑战也更是机遇
电液伺服控制系统作为机电控制系统的一个重要的组成部分,因具有惯量低、功率大、响应快、精度高等特点,在工业、国防、航空航天等许多领域有着广泛的应用。但电液伺服系统也
班杜拉于20世纪70年代后期提出了自我效能理论,为促进学生的学业成绩提供了新思路,大量的研究证实,学生的自我效能感与学习成绩呈正相关。 但早期的研究主要集中在个体效能方
目的探讨伴有抑郁症状的冠心病患者采用心理干预后生活质量的改善情况,为今后冠心病的治疗提供合理可靠的干预手段,更好的提高冠心病患者的生活质量。对象和方法对象2005年12
一种全新的、革命性的供应链创新理念——第四方物流(4PL)已经在中国悄然萌芽。第四方物流将对中国物流业的发展产生无可估量的影响,它必将成为中国物流业向前迈进的强大引擎
美国普里默斯绿色能源(Primus Green Energy)公司日前表示计划在马塞勒斯页岩区建设160t/d的甲醇装置,预计2017年4季度投产,该装置采用模块化设计,以后计划增加3个系列扩大产能
根据《全国工程勘察设计大师评选与管理办法》(建质规[2019]4号),住建部组织开展了第九批全国工程勘察设计大师评选工作。1月17日,住建部官网公布了评选名单,《建筑节能》期刊编委徐伟(中国建筑科学研究院有限公司)、郭晓岩(中国建筑东北设计研究院有限公司)两位老师荣获"全国工程勘察设计大师"称号。