基于条件随机场的中文分词研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yuerenqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词是中文自然语言处理的基本问题。很多自然语言处理任务都建立在分词的基础之上,分词的准确程度直接影响到一系列后续处理的正确性。但由于汉语自身的复杂性,分词问题一直是中文自然语言处理的难题。 条件随机场是一种无向图模型,它具有产生式模型和最大熵马尔可夫模型的优点。既可以利用任意上下文特征,并对这些特征进行训练;又可以通过折衷不同位置的不同特征值的方法获得全局最优的标记结果。 基于统计的中文分词按照分类单位划分,通常可分为基于汉字标注的分词和基于全切分图的分词两种方法。目前,条件随机场方法主要应用于基于汉字标注的分词问题研究,但这种方法不能有效地利用词汇信息。本文对基于条件随机场的中分分词理论和技术做了研究,并实现了一个基于全切分图的条件随机场分词训练和测试系统。由于汉语的词之间没有明显的边界标记,所以无法直接用条件随机场进行分词模型的训练和测试。本文使用构建起始词矩阵和结束词矩阵的方法,来辅助构建基于全切分图的条件随机场模型。本文使用机器学习方法训练基于全切分图的条件随机场模型。与汉字标注的分词方法不同,基于全切分图的分词方法可以更方便的利用词汇以及领域的信息。本文使用了单词的词形和词性信息等领域信息作为特征,构建条件随机场的分词模型。为了提高条件随机场训练系统的性能,本文采用一系列优化策略,提高训练速度。 本文使用人民日报一个月的语料作为训练数据,使用全切分图的方法构建条件随机场模型,分词结果的正确率为0.967。实验表明,基于条件随机场的分词方法,是一种可行的分词手段。
其他文献
目前,对等网络应用已经成为了占用Internet网络带宽最多的网络应用,其发展趋势愈演愈烈,成为当今业界持续关注与探讨的话题。同时,伴随着P2P应用的普及,P2P网络的安全事件发
随着近年来数据库技术的发展,极大的推动了政府和企业信息化建设的进程。为了充分利用存储在异构数据库上的各种资源,政府和企业迫切需要讲分散在各个地方的数据库系统集成起
人体三维运动数据获取技术(HMC, Human Motion Capture),在动画制作,电影特技,电脑游戏,视频监控,虚拟现实,智能人机交互,临床康复医疗,机器人动作设计,体育辅助训练等领域都
癌细胞识别是近来数字图像处理和模式识别领域里的一个研究热点,细胞的特征提取以及基于特征的细胞分类是癌细胞识别的关键环节之一,基于统计学习理论的支持向量机是在小样本
随着互联网的飞速发展,越来越多的学校、政府和企业等通过网络开展业务,进行交流。互联网在给人们的生活带来方便和快捷的同时,也带来了大量的问题,其中网络安全问题日益严重。防
21世纪是信息的时代,信息已经成为社会发展和国防建设的战略性资源。以信息化为核心的新军事变革也已成为世界各国军队关注的焦点。因此,为适应战争形态发展趋势,以做好军事
在数字图像处理的应用领域中,经常需要对图像目标进行提取识别,如人脸识别、文字识别、指纹识别、车牌识别、基于内容的图像检索等,图像分割则是图像识别预处理阶段至关重要
由于煤矿井下生产设备老化及安全监测系统安装的不到位,煤矿瓦斯爆炸事故屡屡发生,致使国家财产和人民生命遭受了重大损失。为了制止这样的悲剧频频发生,迫切需要一套集稳定
自然景物的仿真是近些年来计算机图形学领域研究的热点之一,它要求在计算机中再现自然界中某些现象与景观,而其中有关海浪的模拟是最为复杂的。本文对虚拟海浪建模技术和网格
随着计算机软件应用越来越广泛,软件系统也变得越来越庞大和复杂。从而不可避免的导致了“软件危机”。复用技术被认为是解决软件危机、实现软件产业工业化生产方式的最佳途