基于条件随机场的汉语分词研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:furong2599
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的迅速发展,自然语言处理已经成为信息处理领域一个引人注目的研究热点。由于汉语的特殊性,大多数汉语自然语言处理任务都需建立在分词的基础之上,因而分词的准确程度将直接影响到一系列的后续处理。由于汉语自身的复杂性,分词问题一直是汉语自然语言处理的瓶颈问题。条件随机场是用于标记和切分序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的“生成”模型那样的严格独立假设,并克服了最大熵马尔可夫模型和其他“非生成”模型所存在的标记偏置问题。该模型可以非常容易地将输入序列中的任意特征加入到模型中,而且也可以将一些其他的信息加入进来,如构词规则等。本文系统地描述了条件随机场的定义、模型结构、势函数表示、参数估计及其训练方法等,并将条件随机场运用于汉语分词,采用汉字标注的分词方法。本文应用条件随机场进行了大量的实验,实验语料采用SIGHAN比赛的国际标准语料,并进行了封闭式测试。实验分析了条件随机场模型参数选择和汉字标注集选择对实验结果所产生的影响,并且利用条件随机场模型能够添加任意特征的优点,添加了一些新的特征到模型中,并从字的构词能力角度出发,探索了字位置概率特征。在PKU语料库上的实验表明:字位置概率特征的引入,使结果F1值提高了3.5%,达到94.5%。最后利用各分词系统的分词结果,运用“结果集成”方法,使分词系统的F1值进一步提高到95.6%。
其他文献
大规模的开放式在线课程(MOOC),是一个基于Web的网络课程平台。它整合优质学习资源,为众多的参与者提供一种有效、协同的学习方式。随着移动设备和无线网络的发展,MOOC被广泛
随着无线通信技术的大范围部署,无线频谱成为越来越紧缺的资源。现有的静态频谱管理机制导致了频谱资源在空间维度和时间维度上的低利用率。一方面频谱资源在空间维度和时间
数字图书馆(Digital Library)在世界很多国家受到了高度关注,并取得了迅猛发展,已经成为人们获取信息与知识的重要途径。数字图书搜索则是数字图书馆必须提供的支撑性服务,本
科学技术的高速发展使信息量急速膨胀,在大规模信息可视化、远程医疗、虚拟现实、计算机辅助设计、商业营销、数字娱乐等诸多领域,用户对显示技术的要求也越来越高。主要需求
随着现代信息技术的飞速发展,信息与互联网己经渗透到人们活动的各个方面。各企业与部门大多建立了独立的信息管理系统,软件的可重用性和系统集成在现代软件开发过程中逐渐变
为了使得内蒙古IP城域网更加成熟健壮,本论文就内蒙古IP城域网在技术选择上综合考虑先进性、成熟性及良好的性价比,以网络的可扩展性和可管理性为基础,统一规划,分步实施,秉
随着计算机在各行各业应用的深入和普及,各类社会、经济、政治、国防等重要信息大量的在计算机中存储和网络中传输,围绕系统安全的研究也成为最热门的研究方向之一。由于现在的
全景图生成技术是一种基于图像绘制技术生成真实感图像的虚拟现实技术,是近年来虚拟现实重要的研究方向之一。全景图拼接是将多幅由普通相机或摄像机获得的真实场景的局部图
人体步态是人行走的姿态。它作为一种新的行为特征,具有非接触性、可感知性和非侵犯性、难以伪装和隐藏、易于捕捉等特点,而且在系统的低分辨率下、一定距离时它是唯一可感知的
随着数字图像采集技术和处理技术的飞速发展,图像己成为人们获取信息的重要途径,应用图像的相关信息对产品的几何信息做出相关评定也就成了图像处理的重要内容之一。基于单目CC