统计与词典相结合的领域自适应中文分词

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:sfwyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词方法大体上可以分为两类:基于词典匹配的方法和基于统计的方法。基于词典的方法利用词典作为主要的资源,这类方法不需要考虑领域自适应性的问题,它只需要有相关领域的高质量词典即可,但是这类方法不能很好的解决中文分词所面临的歧义性问题以及未登录词问题。基于统计的中文分词方法往往不具有良好的领域自适应性.本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性.实验表明,这种方法具有良好的领域自适应性.当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%.最终优化后的分词速度也得到了很大的改善.
其他文献
事件关系识别是一项面向文本信息流进行事件关系判定的自然语言处理技术.事件关系识别的核心任务是以事件为基本语义单元,通过分析事件的篇章结构信息及语义特征,实现事件逻
【正】在读《中国人的自觉:费孝通传》之前,对于费孝通先生,我多少了解了一些片断,依稀记得《小城镇,大问题》,也敬佩人文泰斗费孝通先生"各美其美,美人之美,美美与共,天下大
目的探讨脑卒中后抑郁(PSD)的发生率、临床特点及抗抑郁治疗情况.方法对106例脑卒中患者分别采用抑郁自评量表(SDS)和汉密尔顿抑郁量表(HAMD)进行评定.对符合PSD诊断的患者予
2014年度世界贸易组织《世界贸易报告》显示,农产品价格在可预见的将来会保持强势上涨趋势。经济合作与发展组织(OECD)和联合国粮农组织(FAO)对未来农产品贸易预测称:农产品价格继
该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法.首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的
本文介绍了ERP管理思想,以及实施的方法,说明ERP是信息化建设、科研开发效率提高,提升产业竞争的必然途径.