分词词典相关论文
中文自动分词技术是网络搜索引擎的关键技术之一,是中文信息处理中的重要环节,也是智能计算、文献标引、自然语言理解和处理的基础。......
分词词典是汉语自动分词系统的一个基本组成部分,词典的查询速度直接影响到分词系统的处理速度。在因特网上的中文文本检索、汉字......
随着数字电视的普及,数字电视节目越来越多,因此如何有效地在大量电视节目中快速找到用户喜欢看的节目成为一个紧迫的研究任务,一......
随着Internet技术的发展,各种网络应用服务越来越多,BBS(Bullet in Boards System )的开设为广大网络用户开辟了自由发表言论的空......
随着计算机技术的发展,语音交互已经成为人机交互的必要手段。让计算机发出自然流畅的语音是人们梦寐以求的事,随着语言学、语音学、......
中文作为人类传播信息的重要语言工具之一,中文信息处理已经成为信息处理领域的热点研究问题。中文自动分词是中文信息处理的重要......
随着社会的日益信息化,人们希望能用自然语言与计算机交流,聊天机器人就是这样一种通过自然语言同人进行交流的人机对话系统。ALICE......
随着科技的进步,网络技术的不断发展,地理信息系统也逐渐应用到各个方面并渗入到人们的日常生活当中。针对各阶层用户提供一种基于......
语音合成技术是信息处理领域的一个重要分支,是人工智能的一个重要研究方向。语音合成的核心技术主要体现在文本分析和合成语音时......
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率.本文首先分析......
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节......
本文介绍了搜索引擎的关键技术——中文分词技术,对中文分词技术的概念、常用算法以及分词的难点进行了详细介绍,让读者对中文分词......
通过对已有的分词算法尤其是快速分词算法的分析,提出了一种新的分词词典结构,并据此提出了二次Hash^+二分最大匹配快速分词算法。该......
词典的查询速度直接影响到分词系统的处理速度,从而影响到整个系统的性能,基于多重数组的分词词典技术很好的解决了词典的查询速度......
提出了一种应用于GIS领域的中文分词算法.采用将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的"首位Hash-Trie树"结构......
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语......
为了解决多部主题词表联合标注中标注词条数量大、子串较多等问题,本文提出了基于MMSeg分词的标注方法.采用MMSeg分词算法将待标注......
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开......
中文自动分词模块是自动答疑系统的一个重要功能模块。在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词......
文章对目前现有的一些中文分词算法进行简单介绍,结合医学词汇的特点,在基于字符串匹配的中文分词方法基础上,对医学知识的中文分......
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、......
中文分词是中文信息处理最重要的预处理.文章对传统的反序分词词典进行了改进,设计了反序词典词根HASH表,并给出了相应的分词算法,......
用PHP和AJAX实现了汉语分词词典的维护程序,包括查询、添加、删除、更新等功能,主要应用于网络文字信息资料分词后的处理中。......
基于对算法的时间复杂度和分词精度的综合考虑,提出了一种分词词典和统计分析相结合的解决方案。该算法采用统计和机械分词相结合......
本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为"词首+长词匹配+短词推进"自动标引方法,从而有效地减少领域的分词歧......
给出了一种汉语分词有向图的快速生成算法。所构造的有向图可以作为机械分词、消除歧义以及进一步分析句子的基础。......
基于词典的中文自动分词是中文信息处理的基础.按照使用计算机缓存的优化原则,分析了几种典型的分词词典机制,指出了其中的一些问......
摘要:汉语分词,就是将中文语句中的词汇切分出来的过程。分词技术作为中文信息处理的基础环节,它的解决是计算机自然语言理解、人工智......
摘要:基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于5iX数组Trie树结构的改进算......
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于......
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步--正向单扫描的......
正向最大匹配分词FMM(Forward Maximum Matching)算法存在设定的最大词长初始值固定不变的问题,带来长词丢失或匹配次数较多的弊端......
随着社会信息化的发展,无论是党政机关,还是公司企业学校,人们更青睐于用电子文档的形式来存储、备份文档。于是电子信息迅速增长......
所谓中文分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单......
随着现代信息技术的发展,自动分词技术已经广泛应用在信息检索、信息抽取、机器翻译、语音合成等自然语言处理领域,同时结合中文文......
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用......
在网络舆情监控中,由于事件的突发性和网络词汇的泛滥,各种各样的新兴词汇以及新的字符串大量涌现,而有穷的分词词典对新词的识别......
结合顺序表和跳跃表的快速查询特性,提出一种改进的整词分词词典结构,主要采用哈希法和二分法进行分词匹配,并针对机械分词算法的......
近年来,汉语自动分词成为中文信息处理的一大热门课题,其研究进展令人关注。本文主旨,是通过介绍CASS系统的设计和实现,阐述汉语自......
汉语分词是汉语言处理有别于拼音文字语言处理的特点之一。本文回顾了汉语自动分词的研究历史;对现有的四种计算机自动分词方法进......
本文在大量统计的基础上,论证了计算机自动分词是可行的。CDWSThe Mordern Printed Chinese Distinguishing Word System)是作者设......
文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法,提出自动分词方法的结构模型ASM(d,a,m),对各种分词方法......
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传......
针对当前自然语言处理中中文分词基于词典的机械分词方法,正序词典不能作为逆向最大匹配分词词典以及反序词典维护困难的问题,提出一......