汉语自动分词中排除歧义字段算法的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:w56382955
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学领域中的一个重要研究方向,是人工智能的一个重要分支。汉语自动分词是中文信息处理的重要基石。困扰汉语自动分词发展的原因有很多,对歧义字段的排除是亟待解决的几个难题之一。本文针对汉语自动分词中的歧义字段,研究了现有排歧算法的优缺点,发现现有算法还不能完全满足实际应用的需要,有待继续研究。在此基础上提出了两种排出歧义的算法,并将两种排歧算法形成独立的模块,该功能模块应用于由本实验室自主开发的“汉语自动分词系统”中,以提高该系统的能力。为解决汉语自动分词难题提供了一种新路径。论文首先对自然语言处理作了简单介绍,提出了中文自然语言处理的特殊性,即汉语的词与词之间不像西方文字那样存在自然分隔标志,因此必须对待处理的中文文本进行自动分词。随着汉语自动分词算法研究的深入,制约其发展的几个问题便越来越受到研究者的关注,其中一大难题就是歧义的排除。论文主体部分对分词中的歧义排除算法作了研究。先介绍了交集型歧义和组合型歧义的定义及识别方法。在分析常见排歧算法的优缺点后,提出两种排除歧义的核心算法。一种是基于隐马尔科夫模型和词的二元模型排除交集型歧义的算法(HB 算法),此算法的思想结合了词的二元模型和词性的二元模型,不但解决了词性标注,还为排除交集型歧义提出了一种新方法。另一种是基于支持向量机和规则排除组合型歧义的算法(SR 算法)。SR 算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义。拓广了SVM 的应用范围。论文最后把排出歧义字段的算法应用于实验室同组人员一起开发的中文分词中。以大量的不同类型的语料作为测试集,做了封闭式和开放式的实验,并把实验结果和中科院的分词系统作比较。实验数据表明,两种排歧算法排除歧义字段的正确率比较理想,验证了两种算法的可行性。同时,对全文的工作进行了总结,并提出进一步的研究工作。
其他文献
人脸识别是生物识别技术中的一种。与其他生物识别技术不同,人脸识别具有使用者友好和可以被大量应用的显著优点,而这也使得它成为模式识别的一个具有挑战性的课题。人脸识别
DDoS攻击是目前网络违法行为中,不法分子使用的终极武器。由于攻击工具易于开发、攻击危害程度大、以及攻击数据包的源地址伪造而使得攻击者不易被发现,等等这些原因,使DDoS攻击
聚类是数据分析的重要工具,主要包括划分法、层次法、密度算法、图论方法、网格算法以及模型算法等方法,其中模糊C均值算法(FCM)是目前最常用的算法之一。如何提高聚类算法的
软件安全事件的频繁发生引起人们极大关注,对软件的安全性进行准确客观地分析与评估,是软件安全保障的前提和必要条件,本文正是基于此点展开论述与研究的。 为有效表示和检测
数据挖掘是从20世纪90年代以来迅速发展起来的一门新兴技术.其处理对象是大量的日常业务数据,目的是将隐含的、尚不为人知的,同时又是潜在有用的信息从数据中提取出来.机器学
当前数字信息技术和网络高速发展,嵌入式系统已经广泛地渗透到科学研究、工程设计、军事技术、各类产业和商业、文化、艺术以及人们日常生活等方方面面。随着嵌入式系统应用
数据流是一个按时间到来的有序的项集。和传统静态数据库中的数据不同的是,数据流是连续的、无限的、通常以很高的速度到来的并且数据分布随着时间而改变。由于数据流的特点使
随着存储容量和CPU的处理能力的快速增长,磁盘带宽能力却没有得到相应的提升,I/O已经成为影响计算机性能的瓶颈。并行文件系统和并行I/O成为解决磁盘数据处理能力和CPU计算能
目前网络上分布着海量的空间地理信息,这些信息以诸多的格式存储,由不同的个人和单位维护。信息之间的互操作性已成为近年来业内关注的热点问题。然而,传统的方法比如数据格
随着互联网的快速发展,网络上汇集了包括网络新闻在内的大量的信息。网络新闻已成为当今社会重要的信息载体和人们获取信息的重要渠道。由于网络新闻内容丰富多样,情感倾向也