基于无词库的中文分词方法的研究

来源 :南京邮电学院南京邮电大学 | 被引量 : 0次 | 上传用户：guohl_sh

【摘要】

：

　　在Web环境下，中文信息处理对象由少量、规范的例句扩大到大规模、非规范的文本；中文信息处理范围由单个典型的领域扩大到多个开放的领域，这样，词典对分词精度的影响更加突出，

【作者】

：

祁正华

【机构】

：

南京邮电大学

【出处】

：

南京邮电学院南京邮电大学

【发表日期】

：

2005年期

【关键词】

：

中文信息处理分词无词库分词概率模型模式获取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　在Web环境下，中文信息处理对象由少量、规范的例句扩大到大规模、非规范的文本；中文信息处理范围由单个典型的领域扩大到多个开放的领域，这样，词典对分词精度的影响更加突出，但是，因为自动识别词典未登录词问题，基于词典的分词方法已经不能满足中文分词的要求。分词的目标是保证中高频词条、尤其是对文档主题特征起重要作用的专业词汇的正确识别。无词库分词结合上下文识别生词、自动消除歧义的优点使许多研究者和学者着手开始了基于无词库的中文分词的研究。本文首先对中文分词的基本概念、分词系统的目标、中文分词技术以及中文分词面临的难题进行了概述。接着针对中文分词技术及其发展问题，重点研究了一种基于无词库的中文分词方法即根据极大似然原则构建汉语自动分词的一阶马尔可夫模型和一种训练模型的有效算法，分析了EM(Expectation-Maximization)算法。同时给出一个无词库抽词方法即通过自增长算法获取中文文档中的汉字结合模式，以解决模型未知参数初值问题。

其他文献

电子政务异构业务数据安全交换模型的研究与应用

　　我国的电子政务经过了十几年的建设，在信息化各方面取得了一定的成就，但由于过去对信息化的建设一直是在分散体制下的投入，造成了现有的信息系统相对的分散、异构和封闭，没有

学位

电子政务异构数据交换SOAP数字签名数据动态映射

网格信息服务Agent资源共享互操作语义研究

由于网络中的信息资源是分布和异构的，存在着语法以及特别是语义冲突，很像一个个信息孤岛，难以大规模共享。如果利用语义Web思想解决网络信息语义一致性问题，那么各个信息源都要

学位

信息流时空通道Agent资源共享互操作语义网格信息服务

基于Mobile Agent的网络性能监测系统的研究

随着现代网络规模的不断扩大,复杂性和异构性的日益突出,传统的集中式管理模式已无法适应网络管理的需要。Mobile Agent技术的出现,为网络管理的发展提供了新的思路。本文将M

学位

网络性能监测Mobile AgentWBM

基于JMS的消息中间件的设计与实现

消息中间件是中间件的一个重要分支,它采用消息的方式为网络计算提供了异步低耦合的编程架构。Java Message Service(JMS)是由SunMicrosystems公司提出的基于Java技术的消息

学位

消息中间件JMSJ2EE设计模式应用系统集成

基于冗余字典方向参数判别策略的非凸压缩感知图像重构

压缩感知技术是在稀疏表示的基础上，以较低的采样速度执行采样，最后采用各种重构算法对信号进行重构。目前，对压缩感知技术的研究进行得如火如荼，广泛应用于图像恢复、无线通信、

学位

非凸压缩感知图像重构冗余字典方向参数判别策略

圆形件优化排样系统研究与开发

优化排样是研究如何下料使得原材料利用率最高,在实际生产中应用广泛。服装制造业、皮革制品制造业、体育用品制造业、机械制造业等行业中存在大量的下料问题。国内有成千上

学位

圆形毛坯二维切割切割下料遗传算法爬山算法

基于J2EE和MVC的Web应用开发方法的探讨

当前，Web技术在Internet上得到了广泛的应用，它支持实时的信息发布、动态的用户交互以及与后台系统灵活的安全的连接。因此如何构造功能更加强大、应用更为灵活、开发更为简便

学位

面向对象UMLJZEE设计模式MVCDAO

虚拟蜜网初步研究

随着Internet 的发展,基于网络的应用系统越来越多,包括电子商务、电子政务、电子银行、网上证券、网络购物等,网络信息系统在政治、军事、金融、商业、交通等方面发挥着越来

学位

入侵诱骗虚拟Honeypot被动系统特征识别动态自适应

多线程环境下动态编译器的设计与优化

近年来由于计算机安全技术的发展和计算机网络带宽的提高，传统的计算模型随着动态编译技术的发展逐渐演变为异构平台上计算资源的共享模型。这不仅降低了异构平台上硬件的复杂

学位

动态编译多线程性能分析编译优化

Web Services构件库的研究

近年来,软件复用在软件产业界的地位已经日益重要,它被视为解决软件危机、提高软件的生产效率与质量的现实可行的途径,而各种新技术的发展为软件复用带来新的市场和需求,特别

学位

Web 服务软件复用构件库XMLWeb Services 构件库

基于无词库的中文分词方法的研究

与本文相关的学术论文