汉语自动分词系统的研究与实现

被引量 : 0次 | 上传用户:lsyuanxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能的一个重要分支。汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。汉语自动分词系统是利用计算机对汉语文本进行词语自动识别的系统,对其研究已经取得了很多成果,但已有的系统还不能完全满足实际应用的需要,有待继续研究。本文主要目标是设计并实现一个汉语自动分词系统。在分析了自动分词面临的主要困难和难点的基础上,旨在降低分词难度和提高分词精度,设计并实现了一个基于多步处理策略的汉语自动分词系统。论文的主要工作如下: 论文首先介绍了汉语自动分词系统通常采用的语言模型和分词算法,提出了基于词性信息和规则相结合的时间语词消歧算法。时间语词包括时点语词和时段语词,特定类型时间语词在切分时存在是时点还是时段的问题。本文提出的算法开放测试正确率约为90%,表明了该算法的有效性。其次搜集、整理和建立了研究所用的自然语言资源。主要包括人工切分标注语料的搜集、加工和整理,生语料的搜集及加工,分词词典和为分词提供决策依据知识的分词知识库的建立。还对文本中的非汉字字符、汉字数字串归并进行了探索。论文的核心工作是设计并实现了一个基于多步处理策略的汉语自动分词系统。系统包括初切分,词性标注、歧义字段处理、模型平滑、未登录词识别等功能模块。初切分是找出待切分语句各种可能路径;歧义字段处理包含利用词的二元模型或分词词性标注一体化模型处理交集型歧义,利用支持向量机理论处理组合型歧义;未登录词识别已实现的功能是利用词性探测法识别中文姓名;模型平滑技术体现在词性标注和歧义字段处理过程中。最后通过实验验证了系统的性能。与人工分词结果相比,系统的分词正确率达到了96.94%,分词速度在1000~1400 个/秒之间,虽然没有达到目前所见效果最好的中科院汉语词法分析系统ICTCLAS 的精度和效率,但在实现过程中探索的一些新方法对以后的研究将会提供很多的帮助。同时对全文的工作进行了总结,提出进一步的研究工作。
其他文献
目的:研究探讨针对肾结石患者采用经皮肾镜碎石取石术与开放性手术治疗的临床效果以及治疗安全性对比。为临床手术治疗肾结石提供理论参考依据。方法:对我院自2009年12月至20
嵌入式系统在当今已经得到广泛应用,而嵌入式操作系统是嵌入式系统的核心,成为操作系统研究的一个重要分支。本课题的目的就是以uC/OS-Ⅱ嵌入式实时操作系统内核为研究对象,
土地革命时期,革命根据地的土地政策目标是要推翻封建地主剥削制度,保护和巩固根据地,并为完成新民主主义革命任务打下坚实基础,但早期土地政策的制定却受到了共产国际的影响
随着信息技术的迅速发展,特别是数据库技术和计算机网络的广泛应用,企业拥有的数据量急剧增大。在大量的数据与信息中,蕴藏着企业运作的利弊得失,若能够对这种海量的数据与信
目的:研究探讨肛肠疾病患者外科手术治疗后临床常见并发症的治疗及其疗效。为临床外科肛肠疾病术后并发症的治疗提供理论参考依据。方法:对我院2007年7月至2012年8月收治的肛
中学班主任在整个班级管理中起着举重轻重的作用,扮演着处理班级各项事务、调节各种人际关系的角色,在班级中发挥着主导、组织和管理的作用,对学生学习能力、思想教育和心理
对冠心病中医辨证研究从病名、证候规范、临床流行病学、冠脉造影、功能检查、生化检查等方面进行了综述,并对研究中存在的问题进行了分析和展望。
当前中国以债权投资为主的对外投资特征,使中国的对外资产面临越来越大的潜在风险。中国的外汇储备投资跌入美元陷阱,收益率极低;中国的对外直接投资近年来发展迅猛。尽管中
目的:探索中风先兆常见中医证型及其分布规律。方法:制定了《缺血性脑中风筛查表》,在"陕西省中西医结合防控脑中风协作网"各协作单位开展了缺血性脑中风筛查工作,共计680例
作者阐明了美联储提出量化宽松Ⅱ(QE2)的现实背景和政策思想渊源,分析了QE2的经济后果以及中国面临的政策挑战。如果QE2引起的流动性增加主要在美国国内被消化,那么通货膨胀