统计与规则相结合的中英文组块分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:decade555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
完全的句法分析是当前自然语言处理的一个重点和难点。现阶段被认为无法彻底解决。进行部分句法分析,即组块分析,既可以达到自然语言句子进行句法分析的目的,又可以降低分析过程的难度,达到实用的目的。本文从理论和算法的角度来讨论汉语组块的定义,标记类型及其分析方法和技术。本文首先提出了当前句法分析的困难,介绍了组块分析作为一种折衷策略的研究现状,以及实现组块分析的两条技术路线:规则方法和统计方法。然后,本文在前人对于组块定义的基础上,针对现有的滨州中文树库语料的句法标记,通过定义一系列的规则和合并策略,得到10种类型的组块,并详细介绍了各种组块类型获取的策略。接着,本文详细介绍了统计机器学习理论中支持向量机方法和规则学习方法中的基于转换的学习。阐述了他们的基本原理,特征表示形式及其特点。支持向量机方法在函数表达能力,推广能力和学习效率上都要优于传统的人工神经网络,且很大程度上解决了传统方法存在的问题:如模型选择、过学习、非线性、多维问题、局部最小点问题等。基于转换的学习方法能自动融合不同类型的知识,所得到的模板可以显示一些语言知识,这些语言知识对于语言学及其他相关研究有重要意义。利用统计和规则的方法有效地结合了两种方法的优势,达到较为满意的组块识别效果。本文设定一系列的实验来测试当选用不同的特征(词、词性、组块),以及语料库规模不同时对分类器的影响。最后本文把SVM+TBL的方法应用在CoNLL2000英文语料和我们定义的中文语料上。基于实验结果,分析了工作的缺点和不足,提出了下一步研究方向。本文的研究成果可以应用到自然语言的其他领域,比如:问答系统中问句分类,机器翻译中的关系对齐、词对齐和统计机器翻译,信息抽取,文本分类,语音识别等。
其他文献
随着数字多媒体技术在网络上的广泛应用,数字产品以其方便快捷,深受人们喜爱,电子出版、网络视频、数字图书馆、电子商务迅猛发展。虽然它给人们带来了便利,但是同时也带来了安全
科学可视化技术可以广泛应用于医学、气象学、地质学等多个领域,是当前发展最为迅速的技术之一。体绘制技术作为科学可视化的关键技术也得到了国内外研究者的极大关注。虽然
随着计算机技术和网路的发展和普及,信息化已经影响到社会的各行各业,正在蓬勃发展的电子政务就是其发展的结果。当前电子政务发展很迅猛,从上到下,各级政府都在建立自己的电子政
需求工程是软件工程的初始阶段,是整个软件开发过程的基础,也是项目成败的关键阶段之一.近些年来,随着软件规模的不断增大和在各个领域的广泛应用,使软件工程研究越来越重视
计算机联锁系统使用建筑面积小、易于设计改造和维护,便于添加新功能,因此在铁路运输系统中得到了广泛的应用。安全是铁路运输系统中经久不变的话题,故计算机联锁系统是安全性和
随着我国高等教育事业的迅猛发展,高校的规模越来越大,和以往相比呈现出学生多、教职员工多、多校区、学生培养模式发生变化、学校与外部信息交流多等特点,这使得高校管理工
近些年来,人脸识别领域有了很大的进步。本文要做的就是提高人脸识别的正确识别率,为了达到这个目的,从下面几个方面下手:特征提取算法改进,分类器选择,相异度测试公式选择。
中国列车运行控制系统(CTCS)是一个典型的复杂巨系统,是分布式智能系统的一个具体应用。多Agent系统(MAS)的形式化建模与验证是近些年来形式化理论研究的前沿技术之一。因此本
随着放射治疗相关技术的发展,病人的医学影像数据规模越来越大,放射治疗计划系统需要处理的数据量也随之大大升高。临床应用中,医生往往需要等待放射治疗计划系统计算完成,而等待
报表系统是数据库应用系统中最基本、最重要的子系统。采用手工方式开发嵌入式报表系统存在开发任务繁重、产品生命周期短等缺陷。因此,研究报表自动生成具有重要意义,其目的在