综合最大匹配和歧义检测的中文分词粗分方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:zyx271724361
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文文本信息处理的重要预处理。针对目前中文分词中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确分词奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。
其他文献
介绍一个自主开发的移动学习系统的设计和实现。该系统利用J2ME技术开发手机服务器和客户端程序,将系统配置在移动通信设备上,满足了随时随地的移动学习需要。
随着信息时代的来临,信息系统在企业信息化的进程中所起的作用越来越大,然而目前对信息系统规模的估算还没有很好的方法,特别是甲乙双方都认可的方法。本文在比较目前较流行的软
3G的成败取决于数据业务,数据业务的发展依赖于终端。在终端产业链中,包括应用软件平台、操作系统以及中间件等关键环节。本文主要分析典型的终端软件平台技术,并从电信运营商角
为应对移动网络业务数据流快速增长带来的挑战,提高用户的内容请求响应速度,保证用户的服务质量,从网络架构演进与改进、内容数据包优化、网络优化以及网络分流技术等角度,探讨移
在Ad Hoc网络服务注册技术的选用上,往往存在一个共同的局限性,即单点失效问题,其在网络应用中带来了处理能力和带宽的较大消耗。基于对服务注册技术的分析,讨论了服务注册的
宽带多媒体统一通信增值业务平台是基于互联网构建的,满足电信级管理要求、成本可控、部署灵活的一套网络基础架构。平台同时提供统一的标准化增值业务中间件开放接口,可以解决
为了对存在异常值的图像构建低维线性子空间的描述,提出用鲁棒主元分析(RPCA)的新方法进行掌纹识别。运用图像下抽样方法降低掌纹空间的维数,在低维图像上应用RPCA提取低维的投影向量,然后将训练图像和待识别图像向投影向量上投影得到鲁棒主元特征,计算特征向量间的余弦距离进行掌纹匹配。运用PolyU掌纹图像库进行测试,结果表明,与主元分析(PCA)、独立元分析(ICA)和核主元分析(KPCA)相比,RP
随着电信运营商又一轮重组浪潮的到来,中国电信市场即将形成三足鼎立的局面,运营商之间的竞争将更加剧烈,各大运营商面临着更加严峻的挑战。而利用重组之机,优化计费账务与结算处
在分析基站耗电的主要构成、机房内外气温变化统计情况的基础上,介绍“绿色基站”节能散热解决方案的架构和实践情况。应用情况表明,该解决方案可在保证机房环境温湿度、洁净度