古汉语文本自动句读研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:abchkiesh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语是典型的意合型语言,其研究的困难程度举世公认。相对于现代汉语而言,历时性是古汉语的突出特点。这种历时性加剧了数据不同分布和稀疏问题,使得古汉语信息处理研究进展缓慢。此外,未登录词问题和相关语言资源库的缺乏也影响了古汉语信息处理研究的进展。因此,如何在缺乏语言形态变化和存在历时性问题的条件下,建立可以应用于科研和工程的古汉语语言处理模型是众多研究者不断探索的目标。   中国历史悠久,存世的文献数量巨大,其中绝大多数文献没有任何标点。如果给这些文献添加标点,不仅有利于人们阅读理解文献内容,同时也有利于更高层次的信息处理(如语义分析等等)。因此,本文将古汉语文本自动句读作为研究的主要内容,探索解决在古籍文献的文本中切分语句级单位的问题。   采用何种方法研究古汉语是当前亟待解决的基础性问题。实践证明,西方语言学理论对于古汉语研究具有很好的借鉴作用,但采用完全照搬的方式并不总能很好地解决古汉语研究遇到的问题。因此,若能将前人成功的理论方法与古汉语自身特性结合起来开展研究工作或许可以取得更好的效果。   无论在古汉语中还是在现代汉语中,汉字和词汇的界限、词汇和短语的界限以及短语和小句的界限都比较模糊。而这些问题恰恰是语言学研究的薄弱环节。如果因此将汉字等同于词汇来处理无异于掩耳盗铃。基于以上认识和前人的研究成果,针对古汉语文本自动句读这一具体研究课题,本文从最基本的环节(即汉字实际运用情况的环节)入手,基于语言学基本理论,结合信息科学技术,探索古汉语语言结构的奥秘。本文具体研究的内容和贡献如下:   1、汉字聚类。汉字研究在古汉语研究中十分重要,然而,迄今为止,有关汉字类别的研究还不太成熟。这一方面与语料处理困难有关,另一方面也和缺乏必备的理论和技术积累有关。针对这一问题,本文所做的贡献是提出了一种基于汉字使用可替换度的聚类方法并依据该方法自动建立了汉字的类别体系。该方法首先基于“可替换”的理念,在语料中计算不同汉字间的可替换度,进而采用近邻传播聚类模型对汉字进行聚类,以期建立符合汉字运用规律的汉字类别体系。实验证明,在《史记》文献中基于该方法创建的汉字类别体系不仅体现了汉字实际运用的特点,同时也揭示了汉字背后隐藏的语法语义信息。最后,本文建立了汉字类别知识库,对后续研究产生有益的作用。   2、古汉语语词级单位切分。在分词标准难以确定的条件下,本文将具有稳定搭配关系的汉字组合视为语词级单位。以历时性的观点,这比较符合汉语的成词规律。由于语词级单位是语句级单位的直接构成单位,因此,语词级单位的切分就显得尤为重要。针对当前研究的缺陷,在深入研究序列文本中语言单位左右搭配差异的基础上,本文提出一种更为精细的描述搭配关系的模型,并构建了实用的语句级单位切分系统。该模型是全文工作的核心与基础,也是本文的创新点之一。基于该模型,本文展示了句子内语词级单位的搭配变化趋势,为进一步研究语句级单位切分奠定了基础。   3、古汉语语句级单位切分。相对于汉字聚类和语词级单位切分研究而言,语句级单位切分研究是集大成于一身的研究。在引入汉字聚类特征和语词级单位特征的基础上,考虑到邻接搭配强度间的关系反映了语意的完整表达程度,本文针对研究问题的特性,构建了邻接搭配强度间的关系特征,并建立起相应的有指导和无指导的切分模型,这是本文另一个重要的贡献。通过实验,本文比较了当前具有代表性的切分模型与本文提出的切分模型的性能差异,证明了本文提出的模型的有效性。   本文不是从基于现有语法框架的角度而是从语言实际运用的角度出发,采用统计和机器学习的方法,研究汉字聚类和语词级单位切分问题。在此基础之上,构建了语句级单位切分模型和系统。该模型回避了相关理论缺乏(不完善)(如分词标准)的问题以及知识库匮乏的问题,揭示了文本数据背后隐藏的语法语义知识。2008年至2011年的科研和工程(本文成果已经成功应用于“资治通鉴分析系统”、“中国历代典籍总目系统”和“全球华人寻根网”等项目建设)实践证明,本文提出的方法、构建的系统和资源,不仅可以支持古汉语教学研究,同时也可以应用于相关工程建设。
其他文献
侏儒立方体是进行立方体预计算的一种方法,它是一种完全物化的语义立方体,具有有向无环图的结构,可以自动的识别前缀冗余和后缀冗余,并通过对它们的压缩实现对立方体体积的压
人机界面是轨道列车控制逻辑与诊断系统的组成部分,是实现列车控制与诊断的重要平台,是司机与列车进行交互的重要接口,它集成了列车状态显示、部分控制命令发送、故障信息及故障
媒介在人类文明的发展过程中起到了至关重要的作用,是推动文化传播的重要因素,每一种新的媒介都是一个巨大的飞跃。随着计算机科学技术与网络技术的发展,数字网络传播逐渐成
无线视频传感网在传统的以传感器网络为基础的环境监测活动中引入了图像、视频等媒体,信息含量丰富,为实现细粒度、多维度、更全面的环境信息感知提供了数据支持。它关注于视
无线传感器网络越来越多地被运用到环境监测、公共医疗、军事等领域,于此同时,学术界关于物联网的研究也越来越广泛和深入。网络经常被部署在无人值守的恶劣环境中或者敌对环
随着进化算法在多目标优化问题的成功应用,逐步发展成为一个新的研究方向,引起了众多研究学者的重视,成为学术界研究的热点。特别是在过去十年中,众多国内外学者的关注和研究
聚类分析作为数据挖掘的主要方法之一,越来越引起人们的重视。所谓聚类是将一组对象分成若干类,使得同一类内的对象尽量相似,不同类的对象尽量相异。由于聚类在现实生活中应
随着互联网的高速发展,语义网数据的规模也在呈现爆炸式增长。当语义网数据规模达到一定程度时,传统的单机管理模式就无法适用了,在存储和查询的时候,单机的硬件条件必然会成
近几年,随着社会的发展,公共安全已经越来越受到社会的关注和国家的重视。其中公共安全中一个重要的控制因素就是客流量,利用统计的客流量信息,管理人员可以合理的调度人力、
作为构件的运行支撑平台(Component Operating Platform),应用服务器为网络应用的开发、部署与运行提供了全方位的支持,同时通过凝练和提取一系列公共服务支持复用,降低应用开发