基于双数组的分词词典研究与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:bbaiing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分词词典是汉语自动分词系统的一个基本组成部分,词典的查询速度直接影响到分词系统的处理速度。在因特网上的中文文本检索、汉字与汉语语音识别系统的后处理以及中文文语转换系统的前处理等,均对分词速度提出了更高要求,因此建立高效快速的分词词典具有显著的现实意义。 目前信息处理用的词典机制主要有整词二分、TRIE索引树、逐字二分等几种方法,其中TRIE索引树和逐字二分机制查询效率较高。这几种词典机制都是以排序的线性表来提高查询效率,数据结构比较复杂且查询速度较慢。本文主要工作是分析了几种常用词典构造方法的优缺点,针对分词中特定的查询条件,设计并实现了基于双数组的分词词典,同时分析了基于双数组的分词词典的性能。本文将双数组方法与其它几种词典构造方法进行了对比分析。在双数组词典构造方法与PAT树方法的对比实验中,可以看出双数组方法的查询速度要好于PAT树及其变型树的查询性能。 本文最后给出了分词词典实现的数据存储模型,并详细分析了该模型的优缺点。该模型的主要特点是将存储的数据分为两种不同长度信息进行存储,这样可以大大减少对文本的读取操作,能够加快分词的执行速度。对于文中提到的未登录词问题,本文也做了简单的尝试,利用PAT树的动态性特点以及统计模型的优点,从大规模文本中查找词频高于一定阈值的高频词,从而识别出一部分的未登录词,进而部分解决分词过程中未登录词过多的切分问题。PAT算法和Double-Array算法具有不同的有缺点,可以满足不同场合的需要,也可以组合起来使用,解决词典查询的速度和动态性这两个较困难的问题。
其他文献
运动估计是视频编码器的重要组成部分,占整个压缩编码50%以上的计算量。而块匹配搜索又是运动估计的核心,全局搜索算法由于运算复杂度较大,没有实用价值,为了降低搜索量,科研人员提
传统的网络采用尽力而为模式处理到达业务流,无法对要求服务质量的业务提供有效支持。一些研究者和服务提供者一直在寻求解决这一缺陷的途径,其中集成服务和区分服务这两类服务
电子商务的迅速发展使得支付方式发生了巨大的变革,现代化的支付工具——电子现金应运而生并日益发展,由此对现代支付体系也提出更高的要求。但是现在电子现金中还有撤销成员、
优美图是图论中极有趣的研究课题之一,而Skolem优美图是由优美图衍生出来的一个变种。Skolem优美图的研究始于1991年Lee的一篇论文,在这篇论文中,Lee明确给出了Skolem优美图的定
知识管理是90年代中期以后出现的,作为一种新的管理形式,已成为企业提升竞争力的核心要素。国内从1998年以来引入知识管理概念,并受到广泛关注,知识管理逐渐成为管理领域研究的热
随着科技的快速发展,科技论文的规模在快速增长,为科研工作者带来了丰富的文献资料。据统计,高校论文数量以每年6%-8%的速度在增长,规模已达千万级,用户搜索感兴趣论文的时间也与
智能交通系统(ITS)作为21世纪交通运输体系的发展方向,受到世界各国的广泛重视。作为智能交通系统的基础,对交通流理论的研究,尤其是交通流模型的研究,有着极其重要的意义。与国
我国目前10KV以下电力网络的地理分布复杂而且数量众多,大多数管理系统采用的通讯方式或多或少存在着一些弊病,如:电话通讯系统速度缓慢;电力载波通讯可靠性差;一些总线通讯网方式
两跳无线网络是一类很重要的网络模型,可以为更加一般的网络模型性能的分析奠定基础。同时,协同干扰已经被证明是一种非常有前景的能够提供强安全的物理层安全技术。本文提出了
条带噪声是线扫描图像中特有的噪声类型,不仅严重影响图像的视觉效果,还容易在图像分析时被误认为线状目标。因此,研究条带噪声的去除方法具有较高的理论价值和实际意义。在变换