汉语词法分析的机器学习方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:sasaruru
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词法分析是自然语言处理中的基础工作。由于汉语中分词问题的存在,使得汉语的词法分析更加困难也更加重要。近年来,基于标注语料库采用机器学习方法进行词法分析的策略取得了较大成功,但是仍然存在很多问题。 本文实现了基于条件随机场等序列标注机器学习方法的汉语词法分析系统,在特征选取、标记集定义、解码策略、置信度的使用等方面进行了深入研究,在对应的机器学习方法的算法和实现层面分别作了改进,在SIGHAN标准评测数据集上显示了其良好的性能。 系统地分析了汉语自动分词、词性标注、命名实体识别三个任务的特点和关联,提出了在机器学习框架下一体化分析的观点,实现了基于任务合并和贝叶斯推理的整体分析方法,降低了级联错误的影响,并提高了分词的性能。 实现了基于特征层次变换引入领域区分信息的自适应策略,解决了训练和测试中文本领域和标注规范的差异带来的数据失配问题,并讨论了同源数据中不同的领域分布对数据分布和学习算法的影响。 设计并实现了针对最大熵模型和条件随机场的并行训练算法,解决了大规模数据训练过程中的时间和空间代价过高的问题。分析了学习样本数量和优化算法误差对学习性能的影响,实现了基于随机梯度下降的优化算法,指出了其在大数据学习中的优越性。
其他文献
资金配置政策是大型企业资金管理的中心内容,是决定企业资金集中管理成效的关键所在.中国石油天然气股份有限公司辽河油田分公司在总部资金配置政策调整的新形势下,以强化内
黑土是我国土壤有机质含量比较高的土类之一,开垦以后由于人为活动的影响黑土有机质大量损失。探索合理的施肥方式对于减缓黑土有机质下降速度,提高黑土区粮食产量,促进黑土
本文对乙烯信号途径参与拟南芥中MAPK级联信号系统介导的细胞死亡进行了研究。文章利用PCR和RT-PCR方法对拟南芥T-DNA插入突变体进行了筛选,获得AtMPK6和ATMPK3的T-DNA插入突
随着信息领域相关技术的发展,尤其是Internet对数据业务增长的强大推动,人们对现代光网络的功能提出了新的、更高的要求,自动交换光网络(Automatically Switched Optical Net
随着网络技术、无线通信技术和嵌入式技术的飞速发展,异构网络给我们的生活带来方便的同时也体现出了不兼容等缺陷,所以开发一个多协议嵌入式网关已经成为了网络应用的必然需
本文通过对荣华二采区10
期刊
我国是一个农业大国,作物增产、农民增收和粮食安全是保障我国经济和社会发展的重要基础。但是,由于人口不断增加和农业用地面积逐年减少等原因,导致我国人口与土地资源的矛盾日
基于网络的信息交换为多媒体数字产品的使用、传播提供了便利的途径,然而由于数字产品在发布与传输过程中很容易被侵权、盗版或肆意篡改,因此数字产品的版权保护问题已经成为世
由于显微系统中的光学镜头焦深有限,使得样本被放大的同时,只有焦深内的有限区域能够清晰成像。如何突破光学镜头焦深限制,得到放大的、超景深的显微图像,一直吸引着研究者的探究
2019年3月7日,新修订的《中央企业负责人经营业绩考核办法》(简称新业绩考核办法)正式发布,自2019 年4月1日起施行.仔细研读新业绩考核办法,可以深切体会到央企改革系列指导
期刊