汉语信息处理一体化全局寻优算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:luhaohui923
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理的一个基本问题。许多自然语言处理任务,如机器翻译、信息获取、自动摘要等都要依赖句法分析的精确结果才能最终获得满意的解决;另一方面,语言是思维的载体,对自然语言句法分析的研究有助于研究人类思维的本质。因此对自然语言句法分析的研究具有重要的理论价值和深刻的哲学意义。 本文列举分析了几种主流句法分析模型在汉语分析中的性能、特点,提示了造成这些模型在分析英语和分析汉语时性能差异的原因。调查指出,国内关于汉语的自动句法分析大体上处于实验阶段,有一些小规模的汉语“树库”,理论、算法研究方面正在进行艰苦的探索,并且明确指出当前汉语分析的主要问题是:模型构造要考虑汉语语法灵活和针对汉语语法层次模糊的特点,以及如何在语料规模较小的情况下,最大可能获得消除句法分析岐义的信息。通过对已研究成果的分析和继承,提出了本文中解决如何通过在上下文语境中已消岐词义句型信息对待消岐的句型进行消岐方法。 为了能实现全局寻优,本文提出了以下创新思路: 1、定义了两个概念:连环交集型和混合型岐义字段,指出以中科院词法ICTCLAS系统为代表的目前各主要词法系统的切词缺陷,并结合《知网》词汇相关度对最大概率法的“费用”进行修正,有效地解决普通交集型、组合型、连环交集型和混合型岐义切分现象。 2、为了实现分词、新词认别、词类标注、词义标注、句型分析几个阶段全局一体化寻优,提出了“N—最短路径”Viterbi词类粗标注算法。 3、提出了基于《知网》的两个词汇语义实际相关度在具体句子中动态计算方法,并指出词汇整体相关度和词汇语义实际相关度在不同场合的使用方法。分词阶段使用词汇整体相关度,而后者则在词义消解与句型消解阶段中使用。 4、指出目前二元、三元HMM解决词义消解和基于现代汉语语法信息词典进行词义消解的困难,提出了基于《知网》的两个词汇语义实际相关度词义消解算法。 5、利用统计为主,规则为副的方法定义句子成分结构语义关联度,并利用它对PCFG算法结果进行筛选,实验结果表明对几种常见句型能有效地消解。 6、提出一种分词、新词认别、词类标注、词义标注、句型分析一体化全局寻优的算法,并作了算法分析。
其他文献
Internet的飞速发展为人们提供了极其丰富的信息资源,然而海量信息的管理和检索却变得越来越困难。语义网技术的出现,正是为了有效解决这些问题。语义网技术通过扩展现有互联网
虚拟器官的建模与仿真是当前国际上研究的前沿课题。眼睛作为人体中一个极为精密且十分重要的器官,其建模与仿真的实现具有十分重要的意义。角膜是人眼的重要组成部分,角膜的特
AJAX技术是目前最热门的技术,它利用JavaScript和DOM异步地在浏览器和服务器间进行交互。 随着商业银行竞争的渐趋激烈,新交易不断出现,各商业银行原有的柜员系统已经不能满
随着世界经济的发展,市场竞争日趋激烈。依托着信息技术的支撑,越来越多的现代化企业都运用了以并行工程、敏捷制造、供应链管理和虚拟制造为代表的先进制造战略以增强企业的竞
智能化的视频监控系统(Intelligent Video Surveillance)一直以来都与数字信号处理(Digital Signal Processor,简称DSP)技术、电子信息技术、自动控制理论技术、人工智能技术
时空数据库是设计对象时间和空间特性的复杂系统。随着越来越多的应用,如环境管理、地块管理等对时空信息管理的迫切需求,时空数据库也受到了很多的关注。时空数据库概念建模是
人脸动画是计算机图形学中最富有挑战性的课题之一,可以广泛应用于计算机动画行业、游戏行业、远程会议、代理和化身等许多领域,是近几年来国际上的研究热点。其中,相当一部分人
支持向量机(SVM)是九十年代中期发展起来的新的机器学习技术,与传统的神经网络(NN)技术不同,SVM是以统计学习理论(SLT)为基础,NN是以传统统计学理论为基础。传统统计学的前提条
随着互联网的发展和普及,从银行、电信、保险、证券到政府机关,从企业到个人,互联网已经成为人们日常工作、学习和生活必不可少的一部分。人们也对网络安全采取了很多必要的
电子军务是利用网络信息技术实现军队的电子化管理与军队国家安全职能的新型计算机应用技术。是军队从机械化过渡到信息化的重要技术基础。然而;电子军务在提高军事系统领域的