基于统一分词框架的中文新词识别方法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:t6293003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究了在基于统计语言模型的汉语统一分词框架下的新词识别问题。主要有以下两部分工作: (1)总结已有的新词识别特征及新词识别方法,引入一个语素产率特征,把新词识别问题看作二分问题,采用SVM算法,比较了各个特征对于新词识别相对贡献大小,尝试不同的特征组合来识别新词。 (2)讨论了目前新词识别研究中存在的分词性能和效率较低的问题,针对缺乏含新词信息的语料这一难题,提出模拟新词的办法,着重研究了新词分布的情况,寻找适合模拟新词的模型,构筑了基于统一分词框架的在线新词识别系统,并给出新的分词系统在五种不同标准的测试集上的评测结果。 测试结果表明语素产率特征的引入提高了新词识别的查全率和查准率,新的分词系统可以同时实现汉语自动分词和新词识别,提高了新词识别效率和原框架的分词性能。特别,有关中文新词分布规律的研究对其他研究有理论参考价值。
其他文献
舆情分析是了解和研究社会热点变化、预警突发事件、引导社会舆论、维护社会稳定、确保国家安全的重要手段,对于维护社会稳定具有重要意义。微博是近年来快速兴起的一种新的
为使编码压缩的数字视频信号能够在网络上可靠地传输,我们需要解决以下问题: 1)带宽问题:为了得到可接受的视频质量,需要网络有最小带宽的要求。然而,现有的Internet只提供竭尽
超级计算机应用的性能很大程度上受到硬件、系统软件、算法和应用软件的影响,针对各类具体应用进行合理的系统软件优化与定制可以提高性能。科学计算是当前超级计算机系统的
本文主要讨论有关图像的隐写检测技术。本文介绍了可视攻击、统计攻击、基于无损嵌入容量的LSB信息隐藏检测法、转换密度函数方法、基于特征的分析方法、基于高阶统计量的分
随着人类社会的发展,现有交通系统的弊端日益突出,因此人们希望能够通过综合运用多方面的先进技术使交通运输系统更高效、安全,实现智能交通。智能交通作为未来交通系统的发
随着智能移动设备的快速普及和无线网络用户数量的快速增加,人们对能支持高速率传输和多用户并发的无线网络的需求越来越迫切。然而,现有的无线网络协议如802.11,在信道质量
分布式虚拟环境(Distributed Virtual Environment,简称DVE)是虚拟现实技术和计算机网络技术相结合的产物,即是一种基于网络的虚拟环境技术。采用该技术的应用系统,具有良好
潜望镜深度运动是潜艇的一个很重要的航态。潜艇在潜望镜深度航行时,会受到来自波浪的干扰力,其操纵非常复杂,因而改善潜望镜深度的操纵训练有着很重要的意义。本文采用波浪频谱
TMN(Telecommunications Management Network)是电信系统中三大网络系统(交换网、信令网、电信管理网)之一,其网络管理的目的就是为了电信网络运行的优化。其基本概念是提供
本文首先介绍了网络安全的问题,其后论述了网络分离安全检测扫描系统,这个系统就是针对这种非法的网络行为来进行研究的,一旦发现内网中有通过拨号设备或者网卡连接到外网的行为