基于条件随机场的《左传》自动分词研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:xieyl2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是汉语信息处理的重要分支。目前大多关于汉语自动分词的研究都是针对现代汉语的,对古汉语自动分词的研究较为薄弱。先秦典籍是了解先秦文化和历史的重要途径,《左传》则是先秦时期具有代表性的史学著作之一,因此,本文选取《左传》为研究对象,结合古汉语信息处理的特点,基于逆向最大匹配法和条件随机场模型的自动分词法对《左传》实现自动分词。本文主要进行了以下几个方面的工作:(1)设计了基于条件随机场模型的《左传》自动分词算法,包括语料选取、语料的标注、特征的选择以及特征模板的制定。本文选取了四词位的标注体系,选择了字符分类、词性、上古声、调、韵、反切、古音等特征进行CRF训练;(2)根据所设计出的基于条件随机场模型的《左传》自动分词算法进行具体的分词实验。采用CRF++0.58版本工具包,进行了不同特征和特征组合下的CRF分词实验;(3)对设计的基于条件随机场模型的《左传》自动分词算法进行测试。分别将采用逆向最大匹配算法的《左传》分词结果和未加入任何特征下的条件随机场法的分词结果设置成基准线Baseline1和Baseline2,将所有实验结果与Baseline之间进行对比分析,将不同实验结果之间进行对比分析,得出对比结果,并为今后的先秦文本自动分词工作提出建议。通过实验结果测评分析,本文得出了以下结论:(1)采用条件随机场对古汉语进行自动分词得到的分词效果要优于采用逆向最大匹配法对古汉语进行自动分词得到的分词效果,采用逆向最大匹配法对《左传》进行自动分词得到的分词F值为93.4631%,而采用条件随机场对《左传》进行自动分词得到的分词F值可达到95%以上;(2)在《左传》的自动分词中,“调”和“古音”的特征加入可以提高系统的分词切分精度,而“字符分类”、“声”、“反切”、“韵”的特征加入不但没有提高系统的分词效能,反而削弱了系统的分词效能;“词性”作为实验结果中最好的特征,它的加入大大提高了《左传》的切分精度,其分词F值能达到99%以上;(3)不能简单地认为某一特征在单一特征实验中得到的分词效果与它在多特征实验中的分词效果具有正相关关系,二者之间并不存在明显的相关性。在单一特征实验中分词结果较差的特征在组合特征实验中可以得到较好的分词结果,而在单一特征实验中分词结果较好的特征在组合特征实验中反而可以表现较差;(4)由于古汉语大多以单音节词为主,因此采用条件随机场对古汉语进行自动分词的特征模板窗口长度不宜过长,在我们所做的《左传》切分实验中,窗口长度为1的特征模板得到的分词效果最好。本文的主要贡献在于:(1)设计了一种基于条件随机场模型的《左传》自动分词法,融合了字符分类、词性、上古声、调、韵、反切、古音等多种特征,提高了分词效果;(2)在条件随机场模型的训练中,加入了不同数量的特征,全面测评了不同特征组合对分词效果的影响,对于在《左传》分词中效果较好的特征组合。我们在今后对古汉语进行自动分词时可以首先考虑加入此类特征组合,这对先秦文本自动分词具有一定启发性的意义。但是本文中作为基准线的分词方法比较单一,在进行基于词表的分词法实验中所选取的词表也较为单一。对此,在下一步工作中,我们可以采取更丰富的方法进行对照实验,同时可以采取更丰富的词表(如注疏词表)进行基于词表的分词法实验。
其他文献
我国是重要的产煤国,也是受煤矿灾害影响最为严重的国家之一。为防治瓦斯突出等煤矿安全事故,我国逐步建立了基于物联网的井下安全监测系统。但是由于传感器老化、故障或人为
苏禄-苏拉威海,及相邻的印度尼西亚海和南海,位于世界热带海洋生物多样性的中心。苏禄-苏拉威西海由3个人口众多的发展中国家——菲律宾、印度尼西亚和马来西亚所包围,该海及其
保亭县三道镇地处海南岛中部偏僻山区,是黎族同胞聚居的贫困乡镇,全镇有4个村委会,49个自然村,1980户人家,10680人口.1997年人均收入720元,全镇仍有6008人生活在贫困线下.
非牛顿流体雾化射流技术在航天航空领域,医药制造,食品制造等领域有广泛的应用背景。对于雾化射流,以往研究大多集中于喷嘴外部流场且雾化介质为牛顿流体,对于非牛顿流体的气
近几年来,我国防范化解地方金融风险取得了较好的成绩.从总体上看,我国金融运行平稳,金融风险正在逐步化解.但由于情况复杂,历史遗留问题较多,各种矛盾积累已久,从根本上处置
对防范国有银行业风险的制度思考●王一林18年银行业改革的巨大成就在于:银行由“财政出纳”角色变成国民经济的命脉部门,银行部门已占有绝大部分的国民储蓄,银行信贷资金成为推动
作者通过对自由议付与限制性议付信用证的表征和识别,提出了二者的异同与各自的特点,并结合对几个案例的分析,提出了在实际中应注意的问题,以防止因识别不清造成的风险。
“21世纪的食物”,是一项包括整个农业食物链的跨学科研究计划,于1997-2004年在瑞典实施,该研究所面临的挑战是为整个食物链中存在的不可持续的活动提出环境分析工具和解决方案