基于规则的自动分词和取词方法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:fengaipan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于规则的自动分词和取词系统是针对这一问题而提出的一个可行的解决方案.它同样以词库作为各项处理的基础,通过分词和取词两个自动过程,利用与词语自身相关的规律,在较少人工干预的情况下,实现从取词语料中自动提取所需的词构成目标词库.词库处理、自动分词和自动取词是该系统三个核心组成部分.前者实现系统对词库的各项需求,向外界提供系统生成的目标词库,自动分词完成系统对输入语料的切分工作,并复制词库中词语的辅助信息到切分结果中,自动取词在分词的基础上,从切分结果中选取适当的词组成目标词库.三个核心的设计实现是系统研究的关键.对于词库处理,采用了分级技术来存储,通过建立二级索引和词语按序存放来实现词库快速检索;对于自动分词,系统进一步改进了VM分词方法,并利用规则实现语料的快速准确切分,对于自动取词,系统利用了研究所得的各种规律来指导取词过程各个环节上的处理.
其他文献
该文首先对入侵检测系统的技术背景进行了简要的说明和归类.接下来讲述分类问题,实现C4.5分类算法,并应用分类算法进行实验,从审计数据中建立分类模型,以此研究特征属性的构
虚拟化是一个广泛应用在现代化计算系统中的基础技术。虚拟化通过分离应用层与硬件层,实现灵活、按需、便捷的计算资源共享与管理功能。虚拟机在线迁移是虚拟化的一个关键支撑
该论文的研究工作是在前期分布式VOD原型系统的基础上进行的,主要完成的工作包括:第一,在现有研究成果的基础上选择并适当修改节目替换算法使之适合已有的系统模型;根据原型
针对多级安全系统中主体客体安全级副氏形成层次结构的特点,提出用单向哈希函数解决系统强制访问控制的新方法.该方法的基本思想是基于访问密钥的,系统中的主体和客体都有自
随着网络技术多样性的增长以及网络应用的飞速发展,原有的网络协议不足以支持新的应用需求和网络特征,因此,必须扩展已有的协议或提出全新的协议。本文考虑把面向对象的思想运用
随着通信技术的发展和人们对通信需求的增加,网络生存性技术已成为通信网络的关键支撑技术之一。本文主要介绍了通信网络生存性的研究背景、研究现状等,重点对基于洪泛路由(flo
近年来,随着Windows操作系统的普及,各文种的Windows平台文字处理软件也纷纷出台.在蒙文信息处理方面也取得了一定成果,但是随着Internet的发展以及用户需求的增长,希望能够
随着智能CAD技术的发展及其在产品设计中日益深入的应用,产品的创新设计逐步向智能化发展。现有的产品设计系统大都采用单一的智能推理方法,或者将各种智能技术简单集成,存在实
该文对储网络的体系结构、分层存储管理以及网络数据管理协议深入分析后,详细讨论了构建一个统一的存储网络的关键技术——存储虚拟化,并完成了统一存储网中的虚拟化实现方案
随着摩尔定律一再被验证,已经进入了众核时代,不久的未来将会看到含有数以百计甚至千计的核数的芯片。一个普遍达到的共识是缓存一致性将继续在将来的大规模系统中使用并发挥重