基于统计的开放式汉语自动分词

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xzb3560680
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料库规模的进一步扩大。 本文在基于统计的汉语自动分词的基础上,引入开放学习机制,通过有监督和无监督相结合的学习方法,建立包含可信度修正和部分三元语法信息的多元分词模型。然后讨论了切分算法和人机交互等几个实现中的具体问题。通过实验确定模型参数和阈值。实验结果表明,引入开放学习机制的分词模型,闭式分词正确率达到99.07%和开式分词正确率达到98.08%,同时增强了分词系统的适应性和消歧能力。
其他文献
网络入侵的协同追踪研究张静,丁伟 东南大学随着计算机网络的迅速发展和普及化,黑客活动给用户带来的影响和损失越来越大,网络安全技术的研究和应用日益迫切.网络协议的漏洞
学位
该文在综述了最短路问题和脉冲耦合神经网络的基础上,对脉冲耦合神经网络在优化方面的应用进行了深入的研究.该文的主要工作包括:(1)通过建立神经元输出与与其相邻神经元阈值
本文研究了任意矩形组合截面二步法三维编织的纱线布置规律,并在此基础上利用Microsoft Visual C++ 6.0开发了一套二步法三维编织的计算机辅助设计系统。当前,二步法三维编织的
该文所研究的内容为新一代的监控系统,其目的在于建立真正的基于视频内容的(场景中的运动目标)智能监控系统.该论文主要创新性工作可以总结如下:首先,在监控系统的架构方面,
随着计算机软件技术和企业信息化的发展,企业应用软件系统规模和复杂性不断增长.目前的软件开发手段相对滞后于企业对信息系统的需求,需要采用工程化的方法开发企业的信息系
该文的主要目的是通过对软件体系结构的研究,寻求基于软件体系结构的领域开发方法,应用于供应链管理系统,验证其价值.首先从软件体系结构的要领模型入手,分析其组成,包括构成
随着移动通信已经不断地融入到人们的日常生活当中,我国的移动通信系统从第二代移动通信系统(2G)发展到第三代移动通信系统(3G)将是一种必然趋势,同时,人们也越来越关心通信
目前的手机类似于掌上电脑,能够运行各种新型应用.市场上要求手机小巧轻便、低功耗和低价格,因此对手机的存储空间和处理速度有严格的限制.随着无线通信技术的迅猛发展和无线
该文密切结合企业信息需求,研究基于智能代理的供应链管理系统模型,取得了如下成果:△在详细分析动态供应链管理对信息系统需求的基础上,引进代理以及移动代理的概念,分析了