基于出土文献数据库集外字字库的数字化处理方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:bgydong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集外字在古籍文献的重要性,不仅体现在文字自身的学术研究价值,而且在古籍文本的信息处理中有至关重要的作用。这些集外字不论是对于汉字规范进程或是特定时期的历史研究都具有非常重要的研究价值。相比较现代汉语和传世文献语料库,出土文献语料库中的集外字所占比重较大。利用数字人文手段对出土文献文本进行处理时,集外字在语料库中的存在形式及参与方式将直接影响其文本信息处理。本文进行的统计包括现已出土并释读出版的全部出土文献,涉及52种,其中先秦时期的有9种,集外字占比约为3.5%-8.9%;秦时期的有7种,其集外字占比约为0.3%-0.5%;两汉时期的有34种,其集外字占比约为0.1%-0.8%;三国至魏晋时期的有2种,其集外字占比约为0.07%-0.2%。以现有集外字为研究对象,首先参考甲骨文、引得市等数字化文本处理方式,对以里耶秦简集外字为例进行造字,并建立出土文献集外字字库;其次,在此基础上结合前人研究生成出土文献集外字输入法,并依此提出一种适应于出土文献集外字在文本信息处理中的普适化程序化方法。该方法不仅提高了出土文献语料库中的数据完整性,也可使得以往不能被用于文本信息处理的集外字参与至自然语言信息处理过程中。其次,本文利用中文分词手段对普适化程序化方法下被处理的集外字进行文本信息处理的验证。最后,将里耶秦简的集外字完善至其语料库中,再利用其语料库进行三种不同方法下的分词实验,分词实验采用了基于规则的分词方法、基于统计的分词方法以及主流分词工具jieba、Hanlp的方法进行了实验。实验结果显示,对普适化程序化方法下被处理的集外字,可被直接应用于自然语言的处理过程中。因此该方法对于以里耶秦简为例的语料库构建具有有效性及可行性,并尝试将此方法推广至全部出土文献集外字的文本信息处理工作中。
其他文献
根据2016年发布的《管理会计基本指引》,所谓业财融合,就是通过对管理会计的广泛应用,使企业的财务与业务实现有机结合。业财融合不仅是财政部对于我国企业的要求,也是企业发展进程中的必然趋势。企业业务和财务能否实现有机融合有赖于内部控制的建设情况,换言之内部控制的建设情况会影响业财融合的效果。本文以Y集团为例,在业财融合的背景下对它当前的内部控制进行评价,并提出优化建议,使Y集团内部控制建设能够更好促
学位
《埃尔朗根纲领》(也称为“新近几何学研究的比较考察”[1])是几何学发展史中一个重要的理论,即几何学只是研究与此几何特定的变换群有关的不变量的数学分支。由此,19世纪几种看似互不相关的几何学通过这个特定的变换群统一起来。这种以变换群来统一几何学的思想为数学后续的发展提供了一个新思路,因而受到众多数学家和数学史家的重视。鉴于《埃尔朗根纲领》在几何学甚至整个数学中的重要历史地位,基于原始文献和研究文献
学位
近年来,物业管理行业的发展速度不断提升,但整个行业暴露出的粗放管理问题也愈加明显,物业管理企业已无法单纯依靠规模的扩大获得利润。在整个行业逐步向“管理红利”时代过渡的时点,加强成本管控、提升综合效益成为物业管理企业发展的关键。物业管理企业必须积极进行内部调整,逐步转变落后的管理观念,在成本管理方面采用更标准、更科学、更有效的方法与举措。本文的主要研究内容一是从传统价值链理论和服务利润链理论出发,在
学位
形式概念分析是由德国数学家Wille于1982年所提出的一种用于数据分析和知识发现的数学工具,其优点在于明确的语义内涵和对信息的充分表达.形式背景和概念格作为形式概念分析中两个基本的概念,前者表达了完整的原始数据,而后者基于形式概念利用格结构层次化的展现了形式背景所蕴含的知识.然而,概念格较为复杂的结构也为相关研究带来不便,因此概念格结构的简化成为这一领域非常重要的研究方向之一.部分研究者将机器学
学位
我国早期资本市场的不健全制度导致国内需要融资的企业选择海外资本市场助力企业发展。然而来自于海外市场对中概股公司的信任危机以及海外市场政策的不确定性导致中概股企业的后续市场表现并不理想。面对海外高昂的上市成本与较低的估值水平,中概股公司陷入困境。与此同时国内资本市场的蓬勃发展为中概股企业提供了另一快速发展的平台,导致中概股企业回归A股的步伐逐渐加快。中概股回归A股作为我国独特的资本市场现象,其对回归
学位
简牍的出土,极大程度上改善了秦代史料奇缺的情况,为研究战国晚期至秦代的历史提供了丰富而可靠的资源,对当前的史学研究具有不可替代的史料价值。简牍文献中文书占比较大,相较于静态的规则制度而言,实用文书中往往包含着更为丰富的信息,从不同的角度来对当时的社会面貌及规范进行了诠释。如何从简牍语料中挖掘出有效信息并且进行分析研究,逐渐被广泛应用的文本挖掘技术为我们提出了一个较好的解决方法。本文着眼于利用文本挖
学位
随着信息技术的高速发展,数据也不断发展,其重要性与日俱增。我们国家将数据视为重要的生产要素,并大力推动国有企业数字化转型工作。2020年,国资委在《关于加快推进国有企业数字化转型工作的通知》中提到推动生产运营智能化。十四五发展规划指出“加快数字化发展,建设数字中国”。2021年,财政部提出推动会计智能拓展升级,加快会计数字化转型步伐,其发展规划包括基本建立会计数据标准体系。此外,工信部等部门也指出
学位
在遍历论的研究中,遍历定理是刻画动力系统随时间演化性质的重要定理,而熵则是刻画动力系统轨道复杂程度的重要观测量.本文研究了保容量Z+d作用的遍历定理以及amenable群作用的拓扑熵.本文分为以下两部分:第一部分主要研究了保容量Z+d作用及其遍历性.首先介绍了容量的弱遍历性和强遍历性以及保容量Z+d作用的定义,然后建立了保容量Z+d作用的下概率弱遍历定理以及次可加序列的弱遍历定理,最后通过研究强遍
学位
欧拉多面体公式,可以理解为多面体的拓扑特性,是关于多面体顶点、棱和面的数量的关系V-E(10)F(28)2。多面体的第一个拓扑性质是由笛卡尔在1630年左右发现的。同样的性质被欧拉在1750年重新发现,现在被称为欧拉多面体公式。本文通过对笛卡尔、欧拉、勒让德、柯西、施陶特、潘索、吕里尔、赫塞尔、庞加莱等人原始文献的研究,重点讨论这几位数学家的工作和相互之间的影响,以及多面体定义和反例的历史线索等相
学位
随着经济和数字化技术的不断发展,以优化消费者体验为核心的“新零售”模式应运而生,同时国家也针对新发展的这种模式出台了一系列的利好政策,在新冠肺炎疫情发生以后,零售行业迎来新的发展机遇。由于居民消费水平的提高,其对消费类产品及服务的多元化、个性化、品质化、品牌化以及便捷化等消费需求也在不断提升,在茶饮行业出现了与传统茶饮不同的新式茶饮,新式茶饮在近十年内凭借着多种驱动因素,迅速发展并具备了自己的行业
学位