汉语自动分词中若干关键技术的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zhp2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文设计并实现了一个汉语自动分词系统,对系统中采用的关键技术进行具体介绍.词典查找是影响系统切分速度的重要因素.该文提出一种基于Trie索引的词典组织机制,对分词过程中几种常用的词典查找尤其是最大匹配查找的速度有很大提高.歧义字段切分是影响系统切分精度的一个重要因素.该文针对交集型歧义字段设计了统计与规则相结合的切分算法,对多义型歧义字段采用枚举性规则的切分算法.未登录词识别是汉语自动分词中最为困难也是最具挑战性的问题.该文对数字词短语、中国姓名、中国地名、音译名和机构名等主要类型的未登录词都给出了具体的识别算法,并提出基于并发和竞争处理机制的专有名词识别集成策略.最后提出了一种动态词典机制,利用未登录词在输入文本中的全局信息,力图使系统的未登录词识别性能达到最佳.
其他文献
任何一个工程结构受到动态激励或干扰时,都会产生响应,表现为结构的振动和噪声。随着工业各领域技术的高速发展,随之而来的振动问题也日显突出。振动不仅会影响结构的正常工作,还
监控系统作为安全防卫的一个重要组成部分,在保卫公共安全方面起着重要作用。论文主要研究的是符合当前发展趋势的网络数字监控系统的设计与实现。 论文首先阐述了研究背景
为了解决基于构件软件系统的可靠性评估,我们建立一个评估工具箱.首先采用可靠性增长模型来评估构件的可靠性.在此基础上,实现了构建软件评估模型Gokhale模型、基于软件执行
基于动态模糊逻辑(DFL)给出了DFL agent的逻辑模型,建立一个基于多agent的问题求解模型。主要包括以下几个方面的工作: (1)分析了当前问题求解理论的不足,针对这些不足,给出基
专家系统已经被证明在支持结构工业的决策方面是一种强有力的工具。 专家系统用规则来代表专家,推理并得到合理的解决方案。这些规则基于方法和问题域的知识。为了获得有关
随着计算机网络技术和通信技术的飞速发展,全球信息化已经成为不可阻挡的趋势。越来越多的企业和组织建立了与自己的关键业务相关的计算机网络系统,借以提高工作效率、降低成本
控制器局域网(CAN)属于现场总线得范畴,是一种有效支持分布式控制和实时控制的通信网络.由于其高性能、高可靠性及其独特的设计,在工业控制、家电智能化、汽车、航天等不同的
为保护环境,使国民经济保持可持续、健康发展,各城市利用多种渠道已建成或正积极筹建不同类型的污水处理厂。为减少其运行成本,提高其经济效益,有必要对污水处理进行计算机实时监
地理信息系统数据库是高速三维地形显示系统的重要组成部分,主要对地图和地理实体进行存储和管理,难以用简单的数据类型表示。 本文对地理信息系统数据的组织处理技术进行了
随着互联网技术的高速发展,IPv6取代IPv4成为下一代互联网的主要协议,是网络发展的必然趋势。与此同时,IPv6带来的开放性和网络固有的脆弱性使网络上的安全隐患不断。在IPv6