基于统计的汉语自动分词系统

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:thangna9806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文论述了基于统计的汉语自动分词系统的原理和过程。本文首先回顾了分词的发展历史,总结了分词的目标,分析了分词存在的问题,总结了前人对基于语料库的统计分词理论的研究。然后,在分析汉语分词处理模式的缺点的基础上,本文研究了一个迭代的汉语统计分词的处理模式并提出了在建立和优化词典的过程中隐含训练和优化语言模型的观点。词典在分词系统中非常重要,它是分词的基础。为得到一个既稳定又动态变化的词典,在基于统计的分词方法中,需要先对大量的语料文本进行处理来得到一个初始词典。为克服计算机内存和效率的限制,采取PAT 树来建立初始词典。本文给出了PAT 树的形式化定义,研究了PAT 树的结构、工作原理和改进措施,并详细探讨了PAT 树的构造算法。接着,本文深入研究了初始词典的结构,给出了初始词典内部结构的形式化定义,详细地研究了初始词典的建立过程,包括语料文本的处理和PAT 树的建立,探讨了初始词典的构造算法并分析了初始词典和PAT 树的性能。为了减小词典的规模,提高分词的效率和准确性,需要对初始词典作进一步的处理。本文详细探讨了初始词典的处理机制,研究了词典的组成,非常详细地分析了初始词典的处理,探讨了词典的收词原则,详细研究了词典的处理过程。接着,本文应用词典对语料文本进行分词。确定了分词的原则和步骤,主要分析了本系统在解决交集型歧义和未登陆词问题的优点。由于语料文本的限制,需要不断地进行词典和语言模型的优化。本文对词典和语言模型的迭代优化进行了研究,主要分析了如何对词典和语言模型进行迭代优化以解决在分词过程中出现的问题。然后,本文以一个特有域为例分析了本分词系统的应用,包括PAT 树的建立、初始词典和词典的建立及处理,并分析了处理结果。最后,本文分析了本系统的不足和需要进一步做的工作。
其他文献
随着Internet的迅速发展和网络技术的不断提高,网络已成为现代社会信息交流的重要途径。Internet提供的开放性网络环境也带来许多安全隐患,网络安全问题已经越来越受到人们的关
随着计算系统的复杂度的不断增加,产生了一种新的概念——自主计算(Autonomic Computing)。自主计算把系统的复杂性嵌入到系统结构内部,并且使系统实现自我管理,以降低管理计
无线局域网是计算机网络与无线通信技术相结合的产物,在开放的信道中传输数据,这是无线局域网与局域网的最大差别。无线局域网的物理层传输技术决定数据传输速率,采用何种传输技
脑电信号作为与大脑活动联系最为直接的生理信号而成为了情感研究领域与人机交互领域的热门课题。现代的人机交互系统大部分都不能有效地识别人类的情感状态并驱动机器来执行
智能网(IN,Intelligent Network)是在原有通信网的基础上,为了快速方便地提供新业务而设置的一层叠加网络。CAMEL(Customized Applications for Mobile network Enhanced Logic
随着国内通信市场进入成熟阶段,基础语音业务的利润空间逐步减小,语音增值业务成为运营商和增值业务提供商关注的焦点之一。与此同时,建立合理科学的语音增值业务管理系统成为推
随着现代城市的发展,地下管线已成为人民生活和经济活动的命脉,也成为城市赖以生存和发展的物质基础。利用先进的地理信息系统技术和方法实现对地下各类管线的管理,满足行政管理
形状对齐技术是计算机视觉和计算机图形学等领域的研究热点之一。需要解决的主要问题是快速准确的对齐空间中的两个或者多个物体,以便形状对齐技术可以更好的应用在文物修复
事务作为数据库发展过程中最基本的概念之一,已在各种电子商务平台、企业信息化平台中获得了日益广泛的应用。然而,在全球网络化大潮汹涌澎湃的今天,Internet已经逐渐替代以
本文分析了当前输变电施工进度网络图优化存在的主要问题和当前优化技术的发展趋势和现状。深入研究和分析了粒子群优化算法,根据算法的进化公式,提出了四种优化模型、并分析