论文部分内容阅读
词法分析是自然语言处理中的基础工作。由于汉语中分词问题的存在,使得汉语的词法分析更加困难也更加重要。近年来,基于标注语料库采用机器学习方法进行词法分析的策略取得了较大成功,但是仍然存在很多问题。
本文实现了基于条件随机场等序列标注机器学习方法的汉语词法分析系统,在特征选取、标记集定义、解码策略、置信度的使用等方面进行了深入研究,在对应的机器学习方法的算法和实现层面分别作了改进,在SIGHAN标准评测数据集上显示了其良好的性能。
系统地分析了汉语自动分词、词性标注、命名实体识别三个任务的特点和关联,提出了在机器学习框架下一体化分析的观点,实现了基于任务合并和贝叶斯推理的整体分析方法,降低了级联错误的影响,并提高了分词的性能。
实现了基于特征层次变换引入领域区分信息的自适应策略,解决了训练和测试中文本领域和标注规范的差异带来的数据失配问题,并讨论了同源数据中不同的领域分布对数据分布和学习算法的影响。
设计并实现了针对最大熵模型和条件随机场的并行训练算法,解决了大规模数据训练过程中的时间和空间代价过高的问题。分析了学习样本数量和优化算法误差对学习性能的影响,实现了基于随机梯度下降的优化算法,指出了其在大数据学习中的优越性。