汉语分词相关论文
依存句法分析是识别句子中词与词之间的语义修饰关系并构建依存句法树的过程。依存句法树能够简洁高效的表达句子的句法结构信息,......
一 引言建立一个“信息处理用现代汉语分词词表”是国家社科研究“九五”规划重大项目《信息处理用现代汉语词汇研究》之子课题 9......
该论文提出了基于“就近优先搜索”原则的智能化信息检索技术,应用于自动答疑模块,根据课程内部模块相关度,建立了知识结构树和相......
近年来,档案处理技术已经朝着数字化、信息化、网络化的方向飞速发展。传统的纸质档案处理方法在一定程度上限制了档案信息的共享......
本文主要介绍了汉语分词中未登录词识别与词性标注方法。未登录词是影响汉语分词准确率的一个重要因素,未登录词包括人名、地名、时......
本论文主要是研究利用计算机分析汉语语句。在论文中,详细介绍了汉语语句分析系统的算法思路和具体实现。本文一共包括六章。 第......
汉语自动分词是中文信息处理中的重要环节。基于统计的汉语自动分词方法存在训练数据稀疏的问题,而人工标注工作量过大又制约着语料......
汉语自动分词是中文信息处理领域中的基础课题,其中,歧义切分的消除是影响分词精度的关键问题。国内外很多学者在自动分词领域展开了......
随着计算机技术、多媒体技术及网络技术的飞速发展,网络学习作为一种新兴的教学组织形式,以其突破时空限制、教学资源丰富、交流反......
为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。而在汉语的计算机处理中,大部分的语义分析都......
汉语分词是信息检索、机器翻译、文本校对等中文信息处理重要领域的基础。由于汉语中存在词语规范、歧义和未登录词等问题,汉语分......
学位
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖使用搜索引擎来获取互联网上有用的信息。中文未登录词的识别和歧义的消......
随着 Internet 上中文网页的急剧增加和中文电子出版物的迅速普及,以非受限文本为主要对象的中文自然语言处理的重要性越来越受到人......
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性......
随着深度学习的发展,目前汉语分词在封闭领域上已经达到了很高的性能。然而,当应用场景由封闭领域切换到开放领域时,分词性能会显......
汉语分词是中文信息处理的一项基础性研究课题,其重要性不言而喻。虽然汉语分词相关研究已有20多年,但仍有一部分问题没有得到解决,这......
随着计算机技术的发展,特别是多媒体技术、网络技术的飞速发展,传统的学习模式已经不能满足用户对知识的强烈需求,基于网络的协作......
随着科技的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分。要在海量信息中提取有用的知识,就必须要让机......
汉语分词是自然语言理解中的一个主要组成部分,同时也是文本挖掘,机器翻译,信息检索的基础。由于汉语分词问题本身的复杂性,故而寻求准......
本文简要介绍了光学发展史以及光学学科的发展对社会各个领域的重要贡献;参照有关光学学科分类标准提出了自己的光学学科分类方法,做......
针对情报部门仅关注某些领域动态新闻信息的情况,采用Web正文抽取、汉语分词、文本分类和未登录词识别等技术,通过跟踪用户浏览记......
基于一个实际的文语转换系统,介绍了它的一些处理方法,采用了一种改进的最大匹配法,可以切分出所有的交集歧义,提出了一种基于统计模型......
分析中文的语义,首先要对句子进行分词。从分词的基本理论出发,讨论了分词的几个主要算法,介绍了现在典型的分词系统,并对发展作了......
汉语自动分词问题可以说是目前中文信息处理中一个老大难的问题了.笔者近日读了文庭孝、侯经川等人合作的一篇论文,题为《汉语自动......
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的研究方法与成果进行了分析综述。探讨了分词中存......
近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列数据标注模......
提出了一种汉语文本切分和词性标注相融合的一体化分析的统计模型,并应用动态规划算法与A*解码算法相结合的二次搜索算法,实现了一个基......
针对目前汉语分词系统中BP算法收敛速度慢等难题,提出利用Levenbery-Marquart算法优化神经网络分词模型。较详细地介绍了所建立的试......
文章首先分析了信息网格的体系结构,然后基于开放网格服务结构的核心思想提出了一个构筑在信息网格上的中文分词服务,并重点介绍了......
上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极......
汉语分词词典是中文信息处理系统的重要基础。词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制......
汉语分词是自然语言处理的首要的基本工作。本文提出了一个基于条件随机场(简称CRF)的汉语分词模型,CRF模型作为一个判别模型,可以容纳......
歧义词的切分是中文分词要面对的数个难题之一,解决好了这个问题就能够有力提升中文分词的正确率。对此,本文简要介绍了汉语分词的......
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工......
摘 要:本文从全文检索定义出发,主要介绍全文检索的相关技术,例如,汉语分词技术、倒排索引等,以及介绍全文检索的检索语言,文章最后就全......
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大......
针对汉语分词中的未登录词识别和歧义消除这两个瓶颈问题和目前方法的不足,将类型论的思想引入到汉语分词领域中,提出了类型匹配模......
汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐......
近年来,条件随机场在汉语分词领域得到了广泛的应用。在对条件随机场模型进行训练时,训练语料的规模直接影响模型稳定性以及分词的准......
提出了局部歧义词网格的概念,针对汉语分词中的覆盖歧义,提出了一种使用迭代算法训练覆盖歧义词典的算法,得到覆盖歧义候选词条词......
简要介绍了现代教育及答疑系统的应用,分析了目前答疑系统存在的一些问题,提出了一个实用的智能答疑系统的模型.通过XML技术组织答......
针对中文网页的特点。研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法......
蒙古族人名译名的自动识别对汉语自动分词的研究具有重要意义。本文提出了一种在中文文本中自动识别蒙古族人名译名的算法。以蒙古......
在常规的使用概率统计人名方法的基础上,提出了使用贝叶斯分类法识别句子中中国人名的方法。通过使用贝叶斯分类算法计算汉字串分......
在利用条件随机场进行基于词位标注的汉语分词时,特征窗口的宽度是决定条件随机场学习效果的重要参数。针对特征窗口最佳宽度的选......
提出并实现一种有限状态机算法,该方法结合二分查找树算法将整个词典构造成一个有限状态机,从而使词典中的每个不同的汉字以不同弧......
中文自动标引一直是学界研究的热点.本文主要研究了两个方面:自动分词方法和自动标引方法.通过全面的比较研究,本文认为自动分词方......