分词算法相关论文
在线教学在计算机技术的迅速发展和教学的不断改革下日益普及。各大高校纷纷构建自己的在线教学平台,给予学生更加自由的学习机会......
学位
作为中文信息的最小语法单元,词语之间没有间隔,所以在中文信息处理过程中,首先遇到的是不能逾越的中文自动分词工作。本文在深入分析......
汉语句子S的全切分图记作Graph(S),意思是,该图的所有路径之集Path(Graph(S))正好表示了S的所有切分方案之集Seg(S).我们用一个正......
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节......
文章归纳整理了面向Web的藏文文本对分词系统的要求,对比参照其他藏文分词系统的优缺点并借鉴汉语分词系统的一些好的方法,设计开......
无论在自然语言处理还是在机器翻译中 ,自动分词都是一个重要的环节。本文讨论传统的切词方法中 ,歧义的形式 ,以及消歧处理方法
......
傣语是傣族人民使用的语言,目前仅在中国云南就有近120万人口使用。研究傣语语音合成对推进傣语信息化具有重要意义。本文以开发应......
中文分词技术是中文信息处理中的重要环节,中文分词算法与中文分词系统的性能紧密相关。目前的分词算法可以分为基于字符串匹配的分......
Maze文件共享系统是北京大学网络实验室在2005年发布的一款软件,主要服务于教育网的用户,它是一款基于P2P的软件,同时Maze也是一个......
随着网络技术及Internet技术的发展,计算机技术得到了广泛应用。现代远程教育是网络和Internet应用的一个强有力的例子,它融合了现......
随着网络的迅速发展,在浩如大海的网络信息中,找到需要的信息,越来越费时费力。如何快速有效地找到有用信息成为当务之急,搜索引擎孕育......
文本分词和特征表示是文本处理领域的两个重要问题。本文在这两个问题上提出了新的见解,并且在文本分类的应用环境中对提出的方法进......
我们已经进入一个信息革命的新时代,这个信息时代的显著特点是计算机在人类生活的各个方面,起着越来越大的作用。自然语言是人们最重......
如今,伴随着网络的快速发展和壮大,各式各样的信息也随之而来,其数量是难以估计的,其中又是以文本形式存在的数量最为巨大。对于这些数......
音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理......
随着网络的发展及普及,电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点,这......
彩铃业务是个性化多彩回铃音业务(CRBT,Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一......
随着信息技术的高速发展,中文信息处理在计算机各个领域得到了长足的发展,而中文分词是中文信息处理的基础所在,由于词是连接句子......
外包数据库模式下,文档数据存放在不可信远程数据库服务器端,由于文档数据的敏感性,需要对明文文档数据加密,但加密后的数据失去了......
词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开......
搜索引擎是信息检索必备的工具,也是一门非常适用的技术,虽然各大搜索引擎在不断地完善和发展自己的技术,但是仍然满足不了用户的......
近年来微博凭借其集成化、开放化、操作简单、传播迅速以及覆盖面广等特点在世界范围内得到流行,然而随之而来的微博隐私泄露方面问......
描述了WWW搜索引擎信息处理的相关问题,尤其对中文WWW搜索引擎信息处理的关键技术进行了讨论,并在此基础上提出了一个中英文WWW搜索......
用电脑处理中文信息,在中文的电脑输入与输出难题基本解决之后,遇到的再一个难题就是中文的自动切分问题.本文从分析中文的特点出......
本文探讨了改进的最大概率分词算法在藏语自动分词系统中对交集型歧义字段处理中的应用,旨在为臧语言处理提供理论依据。......
大规模开放式问答系统过于偏重于知识的广度,在面向课程教学的问答系统则对问题回答的针对性和准确性要求相关较高。在教与学的过程......
中文分词是搜索技术的一个核心问题,在分析Lucene结构的基础上,采用一种改进的Hash分词算法,设计出一种高效的中文分词模块。......
分词错误会对未登录词识别产生严重干扰.为解决该问题,本文提出一种对分词结果中的未登录词进行分类,获取分词结果中未登录词的可......
本文通过理论和实验的分析,在采用了新的压缩方法和索引表结构等手段,DM4的全文检索系统所存在的两大问题,即空间膨胀率过高和索引......
新款锤子手机支持一项名为“Big Bang”的新功能,可以将用户手机密密麻麻的文字信息一下子炸开到这个屏幕里面,便于选择其中的内容。......
本文研究的目的是建立一个统一的分词,聚类,语义空间模型。我们使用了面向对象的方法,有利于本系统的结构的升级和修改。
本文主......
本文分析了文本自动分类的关键理论及技术,给出一个基于向量空间模型的文本自动分类系统的框架模型,重点描述此系统的实现算法。......
本文研究基于受限汉语的数据库自然语言查询(DBNLQ),主要涉及到数据库和自然语言处理两个领域.首先介绍了数据库自然语言查询技术......
随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。有效地组织和处理这些海量信息,为人们创建一个绿色的网络交流环境......
汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理领域的一项基础性课题。本文从理论上分析和比较了目前各种汉......
在我国加入WTO组织以后,经济实力得到快速的发展,物流这个新兴的行业也得到了长足的发展。由于我国物流行业处于快速增长期,各方面......
随着社会的快速发展,人们生活水平不断提高,对于医疗健康问题更加重视起来,如今有很多问答系统,人们可以通过此技术直接获取需要的......
垂直搜索引擎是用户利用网络资源不可或缺的工具,而其中的索引引擎和查询引擎都使用到了分词算法。前者依据分词算法分析文本建立......
对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法......
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。......
纵观信息爆炸时代的特征,信息量虽然急剧增大,但信息类型还是有限的。笔者提出,在分词之前先由用户通过选择特定领域词库来确定核心词......