基于语素的汉语词法分析方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:mmyxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为中文信息处理的关键问题之一,汉语词法分析主要包括分词、词性标注和词义消歧三个子任务。虽然近年来汉语词法分析取得很大进展,但处理大规模开放文本时依然面临巨大的挑战,尤其是未登录词问题。因此,如何有效发掘和表示词法特征并解决未登录词识别和预测问题是目前汉语词法分析研究所面临的一个主要困难,同时也是一个研究热点。本文以大规模语料库为基础,在机器学习框架下,融合词语内部和上下文特征,研究基于语素的汉语词法分析方法,重点解决汉语未登录词识别及其词性和词义预测问题。具体地,本文从以下三个方面展开研究:首先,本文以语素为基本构词单位,利用条件随机场模型进行汉语分词研究,重点探索了不同标记集和不同窗口大小对基于语素的汉语分词模型分词性能的影响。在SIGHAN Bakeoff 2005数据上的实验结果表明,语素的引入有利于未登录词识别性能的提高。其次,针对汉语词性标注中存在的未登录词词性预测问题,本文以语素为基础,发掘并融合词语内部的词法特征,实现了一个基于最大熵模型的汉语词性标注系统,并重点分析了影响汉语未登录词词性预测性能的各种因素。在SIGHAN Bakeoff 2007词性标注数据上的实验表明,基于语素的汉语词性标注方法在未登录词词性预测方面具有较大优势。最后,本文提出一种基于中心语素的朴素贝叶斯模型,并在该模型下进行汉语未登录词的词义预测研究。初步的实验证明,基于中心语素的朴素贝叶斯模型可以在一定程度上解决汉语未登录词的词义预测问题。
其他文献
脑机接口(Brain-Computer Interface,BCI)是近年来发展的一门新兴的、多学科交叉的人机接口技术。它是一种不依赖于人正常外围神经和肌肉组织而构成的通讯系统。基于脑电图(E
女书是世界上最具性别意识的文字,有着重要的非物质文化遗产保护价值。到目前为止,女书文献主要依靠手工抄写的方式传承,而随着女书传人的相继去世,女书文献的收集和整理变得
随着互联网的日益增长,Web已经成为人们获取信息的重要途径。Web分为Surface Web和Deep Web两大类。相对而言,Deep Web蕴含了更为丰富的资源,而且价值更高。然而Web数据库分
搜索引擎的发展使得Web信息越来越容易获取。传统Web的优势在于海量数据,而语义Web则能够将信息尽可能表达为计算机程序可理解的格式。用户所需的信息是和格式无关的,数据可能
医疗发展一直是人们的热点关注话题,便捷测试试剂条的出现为医疗提供了不少便捷。医疗试剂条都经过处理,不同的试剂条检验的物质不同,这些试剂条能够快速地与唾液、血液、尿
随着网络技术的不断发展,网络规模日益扩大。对网络流量进行监测、管理和分析网络流量,对于网络管理员了解网络服务的具体情况具有重要的意义。从网络管理的角度来看,被管网
随着社会经济的飞速发展,城市中各种高层建筑物、超大型商场以及购物中心、大型娱乐城、大规模体育运动场等一系列人员聚集场所应运而生。然而这些虽然满足了人们的多元化需
蛋白质的功能与其所处的亚细胞区间紧密相关,通过对蛋白质的亚细胞区间预测研究能够帮助我们了解蛋白质的功能信息,对于生物研究有重要意义。传统通过实验的方式获得蛋白质亚
世界范围内的经济发展、社会进步和城市化进程的加快,道路交通与社会经济生活的联系也越来越紧密,随着机动车数量的不断增加,交通堵塞、交通事故、能源浪费、环境污染等问题
目前,智能交通系统是计算机视觉领域的一个重要研究方向和热点。随着计算机视觉的不断发展,智能监控技术也在不断的走向成熟,其中主要包括车辆目标的检测、跟踪、行为理解和车牌