古籍智能处理技术研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:hymalong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国古籍数字化工作起步于20世纪80年代初,至今已经取得了令人瞩目的成就,主要标志是一批大规模、基础性的古籍著作被开发为真正意义上的数字化产品,并成功走向市场。相关研究论文很多,其中主要对古籍数字化的现状、发展趋势及对策进行了探讨,对古籍数字化取得的成果、数字化技术进行了介绍,然而很少见到有关古籍内容的智能化处理方面的研究。由此可见,目前古籍数字化工作主要集中在数字化产品的开发上,对产品开发过程中涉及的数字化技术研究的较多,而对古籍内容的智能处理技术研究的较少。随着古籍数字化的深入发展,越来越多的研究者认为,古籍数字化不单是复制和再现典籍的原貌,而是将现代技术与传统内容完美结合在一起,形成工具与内容的统一体。数字化的古籍应该是一个增值的信息库,是古籍整理和学术研究的有效工具。提供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考数据、辅助工具,以提高数字化古籍的研究支持功能,最后建立一套完整的古籍整理专家系统,这已经成为当前古籍数字化工作的重点内容之一。本文以农业古籍为研究对象,对利用计算机技术进行农业古籍数字化的各个方面进行了深入研究,分析探讨了古籍数字化相关技术问题,并且就农业古籍整理手段的现代化方面进行了论述,重点研究了农业古籍自动编纂和自动校勘技术及其相关问题。主要研究内容如下:(1)对古籍数字化相关技术进行了系统的介绍和分析。古籍数字化的关键在于原文的快速录入、文本字符的数字化、浏览阅读与超链接设计、检索功能开发等方面,农业古籍的数字化建设也不例外。本文论述了古籍数字化的相关技术问题,主要包括古籍数字化的用字和字符集问题,加工存储技术,浏览阅读技术,以及检索技术,并对已有的一些智能化处理研究进行了介绍。文中对古籍数字化过程中存在的用字和字符集问题进行了分析,指出古籍数字化应选用unicode字符集,采用繁体字进行录入,并且对繁简字的转换问题以及缺字问题进行了讨论,并给出了解决方案。本文就古籍的扫描步骤、扫描方法以及OCR识别问题逐一进行了分析和介绍。并且指出古籍应该统一文本数据和图像数据的格式,以数据库存储为主,为将来资源的共建共享提供便利。超文本的浏览阅读环境是古籍数字化在浏览阅读方面的真正优势,本文就古籍中存在的超链接关系进行了分析,并就如何进行古籍资料库的超文本标注进行了探讨。本文在综合比较分析了数字化古籍的三种检索方式后,指出数字化的古籍资源应以全文检索为基础,构建一整套包括具有关键词检索、条件检索、逻辑检索、模糊检索、组配检索、属性检索等多种功能的检索系统。(2)本文尝试将现代文本自然语言处理的相关技术应用到农业古籍自动编纂的研究中,提出了农业古籍自动编纂的原理,设计了自动编纂的流程,并对自动编纂的技术和算法进行了深入的探讨和研究。农业古籍自动编纂是指利用计算机自动从农业古籍中发现并摘录与某一主题相关的农业资料,并编纂成册。自动编纂涉及自动分词、篇章分割、段落检索、自动聚类等技术。它的基本原理为:如果两个句子包含相同的单词越多,那么它们的关系越密切,然后根据句子间的密切关系划分出句群。如果发现某一句群包含编纂主题,则将其摘录出来。主要的摘录步骤为:首先将农业古籍的章节分割成大小相等的子句;其次利用最大匹配分词技术,提取子句关键词;然后根据文本块比较法,计算子句之间的紧凑度和深度值,并计算深度值的均值μ和标准方差σ,选择所有深度值高于μ-c*σ的子句间隔点作为分割点;最后按照分割点提取相关论题句群,并将编纂结果按照相关性大小排序输出。若同一编纂主题的编纂结果过多,为了方便用户选择,本研究采用以词为中心的动态自动聚类技术,将编纂结果分类显示。此外,本研究还通过构建农史语词知识库,采用超链接技术,为编纂结果自动添加语词注释,增加编纂结果的可阅读性。(3)校勘是古籍整理的重要方式,以前长期以手工进行操作,将计算机技术引入其中,实现自动校勘可以极大的提高校勘工作的效率,本文就农业古籍自动校勘算法及其相关问题进行了设计和研究。古籍自动校勘是指利用计算机自动发现并标记出古籍不同版本之间的文字差异,并提供各种校勘辅助工具以帮助专家勘误。本文在模式匹配和中文文本自动校对的基础上,设计了基于窗口匹配技术的古籍自动校勘算法。它的基本原理为:从底本和对校本中取出大小相等的字串进行比较,如果它们不相等,则将其切分成子串再进行比较,并根据校本串相对于底本串出现的增、删及取代的情况,分别判断为衍文、脱文和错文;如果它们相等,则跳过相等部分,重新取出底本串和校本串,重复前面的步骤进行比较。农业古籍自动校勘要求在显示异文的基础上,由机器作简单的判断,或者提供辅助工具(如避讳字表、异体字表等),帮助校勘专家进行判断和选择。因此,古代官名表、人名表、地名表、避讳字表、异体字表、繁简字对照表等辅助工具的建设和引入是古籍自动校勘的重要组成部分,文中详细分析了各辅助工具的构建方法。此外,本文还探讨了利用古籍中的“互见文献”进行自动校勘的模式和方法。(4)构建农业古籍智能处理系统亦是本文的重要研究内容,该系统主要由自动编纂、自动校勘和辅助工具三个子系统组成。其中辅助工具子系统除了包含上述辅助工具外,还增加了中国历代纪年表,中国历代帝王年表,中国历代年号索引表等。本文详细阐述了这三个子系统的总体设计及实现情况,包括资料收集、功能模块结构等,并分别对自动编纂和自动校勘的效果进行了测试。本研究采用人工打分的方法对自动编纂的结果进行了测试,结果表明良好的编纂结果占到了72.2%,编纂的效果比较令人满意。同时,本文采用定量的方法,对自动校勘的结果进行了测试,发现系统对不同版本间异文比对的召回率和精确率,分别达到了92.3%、95.2%,说明基于窗口匹配的算法是可行的。当然,本系统仍存在一些不足,自动编纂和自动校勘的效果还有待提高,辅助工具的建设以及实验系统的整体功能还有待完善本文将现代文本自然语言处理的相关技术在农业古籍的智能化整理中加以应用,其创新之处包括:(1)结合古农书自身的特点,借鉴自动分词、篇章分割和段落检索等技术,设计了农业古籍自动编纂的模型,并对其中的关键技术进行了深入的分析和研究,如论题句群提取、编纂结果聚类显示等,实现了农业古籍自动编纂的功能,使古籍智能化处理工作向前推进了一步。(2)借鉴中文文本自动校对和模式匹配技术,提出了古籍自动校勘的原理,设计了基于窗口匹配技术的自动校勘算法,并对校勘辅助工具的构建方法进行了探讨和分析,实现了农业古籍自动校勘的功能,是古籍校勘和整理工作走向自动化和智能化取得的突破。(3)将现代文本自然语言处理技术引入到农业古籍数字化研究中,设计并开发了农业古籍智能化处理系统,促进了农史史料学、文献学研究方式方法的革新。完善的古籍整理专家系统除了包括古籍的自动编纂和自动校勘外,还应该包括自动查错、自动断句标点、自动注释、自动翻译(文言译为白话,中文译为外文)等功能。由于研究时间和条件的限制,本文只对自动编纂和自动校勘进行了研究,并且对古籍自动注释进行了初步的探讨,因此,农业古籍智能处理系统离真正的古籍整理专家系统还存在较大的差距,这也是我们今后应不断努力的方向。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
笔者针对油菜品种亲本及杂交种繁育的特点,在对各单项关键亲本繁殖及杂交种制种技术研究的基础上,结合以往研究成果及陕南油菜制种实际,集成配套组装出了油菜保优高产制种技
脂肪酶催化拆分手性化合物是研究小分子和生物大分子之间作用机理的重要内容之一,也是‘绿色’化合成手性药物、环保农药、高档液晶和高级香料的理想途径之一。因此研究脂肪
本文基于使用与满足理论,分析"李子柒"视频内容满足了受众的哪些需求从而获得受众的关注与喜爱,基于以上因素研究"李子柒"的走红现象,并在"李子柒"现象火热的情况下进行冷思
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的比较不同厂家的艾司唑仑片在4种不同pH的介质中的溶出曲线。方法采用《中华人民共和国药典》2005年版溶出度测定方法第二法装置,转速为50 r.min-1,4种介质分别为:水,pH1.2
在石油生产工业中,经常通过注入水或其他流体,驱替地层中的原油,从而达到产油和提高采收率的目的。为了准确预报产量和尽可能提高采收效率,数值分析工具必不可少。因此长期以
2019年末爆发的新冠肺炎疫情在给民众生命健康安全带来威胁的同时,与疫情相关的谣言也随之滋生。本文从新冠肺炎疫情初期出现频率较高的三类谣言入手,研究疫情中出现的四种典