统计与词典相结合的领域自适应中文分词

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户：sfwyb

【摘要】

：

中文分词方法大体上可以分为两类:基于词典匹配的方法和基于统计的方法。基于词典的方法利用词典作为主要的资源，这类方法不需要考虑领域自适应性的问题，它只需要有相关领域的

【作者】

：

张梅山邓知龙车万翔刘挺

【机构】

：

哈尔滨工业大学信息检索研究中心,哈尔滨150001

【出处】

：

第十一届全国计算语言学学术会议

【发表日期】

：

2011年8期

【关键词】

：

信息处理中文分词领域自适应性统计分词模型词典匹配模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文分词方法大体上可以分为两类:基于词典匹配的方法和基于统计的方法。基于词典的方法利用词典作为主要的资源，这类方法不需要考虑领域自适应性的问题，它只需要有相关领域的高质量词典即可，但是这类方法不能很好的解决中文分词所面临的歧义性问题以及未登录词问题。基于统计的中文分词方法往往不具有良好的领域自适应性.本文通过将外部词典信息融入统计分词模型(本文使用CRF统计模型)来实现领域自适应性.实验表明,这种方法具有良好的领域自适应性.当测试领域和训练领域相同时,分词的F-measure值提升了2％;当测试领域和训练领域不同时,分词的F-measure值提升了6％.最终优化后的分词速度也得到了很大的改善.

其他文献

基于核心词和实体推理的事件关系识别方法

事件关系识别是一项面向文本信息流进行事件关系判定的自然语言处理技术.事件关系识别的核心任务是以事件为基本语义单元,通过分析事件的篇章结构信息及语义特征,实现事件逻

期刊

实体分布核心词分布虚拟相关事件事件关系entity distribution event term distribution virtual dep

Omron推出无机架PLC

期刊

Omron公司PLC可编程序控制器协议宏

读读重读读——读《中国人的自觉:费孝通传》

【正】在读《中国人的自觉:费孝通传》之前,对于费孝通先生,我多少了解了一些片断,依稀记得《小城镇,大问题》,也敬佩人文泰斗费孝通先生"各美其美,美人之美,美美与共,天下大

期刊