基于无词库的中文分词方法的研究

来源 :南京邮电学院 南京邮电大学 | 被引量 : 0次 | 上传用户:guohl_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在Web环境下,中文信息处理对象由少量、规范的例句扩大到大规模、非规范的文本;中文信息处理范围由单个典型的领域扩大到多个开放的领域,这样,词典对分词精度的影响更加突出,但是,因为自动识别词典未登录词问题,基于词典的分词方法已经不能满足中文分词的要求。分词的目标是保证中高频词条、尤其是对文档主题特征起重要作用的专业词汇的正确识别。无词库分词结合上下文识别生词、自动消除歧义的优点使许多研究者和学者着手开始了基于无词库的中文分词的研究。本文首先对中文分词的基本概念、分词系统的目标、中文分词技术以及中文分词面临的难题进行了概述。接着针对中文分词技术及其发展问题,重点研究了一种基于无词库的中文分词方法即根据极大似然原则构建汉语自动分词的一阶马尔可夫模型和一种训练模型的有效算法,分析了EM(Expectation-Maximization)算法。同时给出一个无词库抽词方法即通过自增长算法获取中文文档中的汉字结合模式,以解决模型未知参数初值问题。
其他文献
  我国的电子政务经过了十几年的建设,在信息化各方面取得了一定的成就,但由于过去对信息化的建设一直是在分散体制下的投入,造成了现有的信息系统相对的分散、异构和封闭,没有
由于网络中的信息资源是分布和异构的,存在着语法以及特别是语义冲突,很像一个个信息孤岛,难以大规模共享。如果利用语义Web思想解决网络信息语义一致性问题,那么各个信息源都要
随着现代网络规模的不断扩大,复杂性和异构性的日益突出,传统的集中式管理模式已无法适应网络管理的需要。Mobile Agent技术的出现,为网络管理的发展提供了新的思路。本文将M
消息中间件是中间件的一个重要分支,它采用消息的方式为网络计算提供了异步低耦合的编程架构。Java Message Service(JMS)是由SunMicrosystems公司提出的基于Java技术的消息
压缩感知技术是在稀疏表示的基础上,以较低的采样速度执行采样,最后采用各种重构算法对信号进行重构。目前,对压缩感知技术的研究进行得如火如荼,广泛应用于图像恢复、无线通信、
优化排样是研究如何下料使得原材料利用率最高,在实际生产中应用广泛。服装制造业、皮革制品制造业、体育用品制造业、机械制造业等行业中存在大量的下料问题。国内有成千上
当前,Web技术在Internet上得到了广泛的应用,它支持实时的信息发布、动态的用户交互以及与后台系统灵活的安全的连接。因此如何构造功能更加强大、应用更为灵活、开发更为简便
随着Internet 的发展,基于网络的应用系统越来越多,包括电子商务、电子政务、电子银行、网上证券、网络购物等,网络信息系统在政治、军事、金融、商业、交通等方面发挥着越来
近年来由于计算机安全技术的发展和计算机网络带宽的提高,传统的计算模型随着动态编译技术的发展逐渐演变为异构平台上计算资源的共享模型。这不仅降低了异构平台上硬件的复杂
近年来,软件复用在软件产业界的地位已经日益重要,它被视为解决软件危机、提高软件的生产效率与质量的现实可行的途径,而各种新技术的发展为软件复用带来新的市场和需求,特别