【摘 要】
:
该文在统计和规则相结合的基础上,利用上下文信息等语法语义知识设计并实现了一个基于语义理解分词系统,采用智能化的知识约简方法对系统中应用的规则知识库进行建立和动态维
论文部分内容阅读
该文在统计和规则相结合的基础上,利用上下文信息等语法语义知识设计并实现了一个基于语义理解分词系统,采用智能化的知识约简方法对系统中应用的规则知识库进行建立和动态维护,并对系统中采用的关键技术进行了具体介绍.词典查找是影响系统切分速度的重要因素.该文实现了基于逐字二分的词典组织机制和查询方法,对分词过程中几种常用的词典查找速度有很大提高.未登录词识别是中文自动分词中比较困难的问题.该文对中国人名、中国地名、音译名等未登录词采取了分解与动态规划的识别策略.歧义字段切分是影响系统切分精度的一个重要因素.该文对交集型歧义字段设计了基于二元语法模型和动态规划策略的切分排歧算法,并在切分过程中保留粗分集,在后续过程中利用词性等语法知识来进行进一步切分.对组合型歧义字段采用基于切分规则的切分算法,提出了基于DSM的知识约简算法和增量式机器学习算法,对典型的组合型歧义字段建立规则库,并对规则库进行动态维护.
其他文献
随着经济的发展,人类的生活节奏逐步加快,身体素质却越来越差。为了有效的预防疾病,科学合理的锻炼就变得很重要,因此,如何把控运动量就成为关键。运动记录仪作为一种检测记录设备
自1993年C.Berrou等人提出Turbo编码以来,Turbo码逐渐成为编码界研究的热点,Turbo码基本的构造方法是:由两个或两个以上带反馈的系统卷积编码器经过交织器并行级联而成.Turbo
葛厚让简介葛厚让,国网大同供电公司退休职工,醉心收藏石头20多年,现为大同市雅石协会常务理事。1990年,葛厚让成为石头收集爱好者,目前共计收藏各类名石上万块。他的石雕艺
该文的主体内容除绪论以外分为四大部分,分别研究了低码率运动图像压缩算法的框架结构与技术特点、几种DCT变换方法的比较及量化器因子分析、具有仿射变换特性运动图像的运动
目的近年来的研究发现,过氧化物酶增殖体激活受体激动剂( Peroxisome proliferator-activated receptor, PPAR)具有抗炎作用和减轻动脉粥样硬化的作用,但其确切机制还不清楚。本研究利用一种饮食诱导的高脂血症大鼠模型,观察其血管内皮功能障碍的程度。并且证实我们的假设:PPARγ激动剂吡格列酮是否可以通过改善NO/cGMP/cGK信号通路,减轻高脂血症引起的血管
合成孔径雷达(SAR)是一种高分辨遥感成像雷达.具有全天候、全天时的工作能力,对地表遮蔽物也有一定的穿透力.因此,广泛用于军事侦察、战场监视等军事领域,有必要进行SAR干扰
合成孔径雷达(SAR)是一种具有全天候、全天时工作特点的高分辨率成像雷达,在许多领域得到了广泛的应用.在合成孔径雷达系统中,相位误差是影响SAR成像质量的主要因素,而运动误
在SDH同步数字网中,网同步是一项非常重要的内容,所谓网同步是指网中所有交换节点的时钟频率和相位之差都控制在容许的范围内,保证网内各个交换节点的全部数字信号正确有效地
多址干扰(MAI)和符号间干扰(ISI)的存在是影响传统码分多址(CDMA)系统性能和容量的重要因素,因此MAI和ISI的抑制和消除是提高码分多址系统性能和改善码分多址系统容量的重要
CALIS中心和各个高校图书馆建立了大量的资源和服务,包括全文服务、摘要服务、引文服务、书目查询等。但这些资源分布在全国各地,采用不同的平台、元数据格式以及不同的访问方