农业古籍的计算机断句标点与分词标引研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:axrczx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国文化典籍是中华民族在数千年历史发展过程中创造的重要文明成果,蕴含着中华民族特有的精神价值、思维方式和想象力、创造力,是中华文明绵延不绝的历史见证,也是人类文明的瑰宝。对古籍的整理、保护与开发是炎黄子孙应尽的义务和职责。中国的古籍整理,有着悠久的历史和传统。从孔子删定《六经》、刘向父子编撰《七略》,到清人编定《四库全书》、《古今图书集成》,大规模的古籍整理持续不断,影响深远。建国后古籍整理领域取得的巨大成就举世瞩目,目前仅整理出版的农业古籍就达140余种。尽管如此,农业古籍的整理与开发仍然不足,已经整理出版的农业古籍只占全部存世农业古籍的15%左右,大量的农业古籍亟待整理。中国古籍的断句标点最晚于东汉时期已经开始了,其后各代这一工作连绵不绝,只是盛衰易势,治乱更迭而已。明代《永乐大典》所收各书无一不加圈点,而综观清代《四库全书》却无一圈一点。虽同为官方编撰类书,然差距之大、观念之异令人惊奇。民国后新式标点兴起,古籍断句标点之风方始流行,新中国建立后政府更是极力推动,新式标点整理古籍因而数量渐增。1989年我国制订《信息处理现代汉语分词规范》,然以现代文本为处理对象,而应用于古籍整理领域的专用古籍文本的分词规范尚未引起注意。正是基于这一现状,本文以农业古籍为研究对象,研究了农业古籍的断句标点、分词以及索引编制的历史与现状,重点探讨了计算机技术在农业古籍断句标点、分词标引中的应用,构建了农业古籍断句标点、分词标引的原型系统。主要研究内容如下:1)借鉴文本模式匹配、句法分析等技术,研究并设计出农业古籍自动断句标点的算法,设计出农业古籍断句标点的原型系统。通过对约2,000万汉字古籍文本语料的统计与分析,总结出断句标点常用的11种方法。首先采用句法特征词、同义语标志词进行初步断句;进而利用反义复合词、引书标志、时序词、数量词、重叠字词、动名结构词及比较句法进一步对子句进行断句、标点;最后使用农业用语和禁用模式进一步提高断句、标点后农业古籍的可读性和准确性。根据这些断句标点方法与规则,采用自动构建与人工优化相结合的办法构建了断句标点模式库与断句标点禁用模式库2类断句标点知识库。两者共同保证了断句标点功能的正常开展,目前已经构建的标点模式库共有1,166条规则,断句标点禁用模式库共184条规则。依据这些断句标点规则,利用本系统对6种农业古籍的断句标点测试,取得了60.5%的断句正确率与40.5%的标点正确率。2)借助N元分词、词典分词等技术,设计出农业古籍自动分词专用算法,设计出农业古籍分词的原型系统。考虑到目前尚无现成的古籍分词词典可用,因此构建古籍分词词典势在必行。而构建一部全面而权威的古籍分词词典又非短时间所能够完成,因此采用基于词典分词与N元语法分词的综合分词方法成为目前古籍分词较理想的方法。有基于此,本实验构建了基本词典群与禁用词典群等两个分词词典群共10多个数据库,其中基本词典群包括人名、地名、书名、职官名、物产名等数据库,而禁用词典群则包括成语、年号、虚词、数量词、时序词等数据库。分词词典群目前共收录各类词汇20万条,基本上满足了古籍分词的需要。综合采用分词词典分词和N元语法分词2种方法进行古籍文本分词,并采用子串比较过滤、相邻词过滤、高频词过滤、低频词过滤等方法对分词结果进行过滤,分别以12种农业古籍和379种《广东方志物产》为语料进行了古籍分词测试。从12种农业古籍中共识别出已有词1,164个,约占总词汇量的31%;未登录词2,530个,占总词汇的69%。从379种广东方志物产资料中共识别出已有词6,314个,占总词汇的8%;未登录词75,438个,则占总词汇的92%。其中出现10次以上的词汇为8,044个,占总词汇的10%。出现20次以上的词汇共3,760个,占总词汇的5%左右。通过对379种《广东方志物产》分词结果的分析,我们发现这样一个事实:当词频等级位于区间(2000,8000)时,词频等级与频次乘积基本为常数23,000,000,这一结果说明齐夫第一定律在古籍文本中同样适用。利用计算机实现农业古籍文本的断句标点与分词标引,并开发出相应的原型系统,是国内农业史、情报学、中文信息处理技术等学科结合的一次全新尝试。正因为如此,本项研究仍然稍显稚嫩,尚有进一步深入的必要。(1)目前采用的断句标点模式库共有各种规则1,100余条,数量有限,而且各个规则之间仍然有待于进一步梳理与优化。再者,目前断句标点所用的方法为模式识别方法,主要基于语词的应用,而对于句法特征的采用仍然有限。这主要因为目前缺少农业古籍分析的熟语料库,特别是缺少农业古籍词汇属性库,使本实验难以进行有效的句法分析。随着农业古籍词汇属性库的构建,古籍句法规则的分析将会逐步深入。立足于农业古籍词汇属性库与古籍句法规则库的断句标点将会取得更佳的效果。(2)分词系统采用词典分词与N元语法结合的综合分词方法,通过词典识别出的词汇占总词汇的比例仍然不高,在农业古籍中占31%,这一结果很显然乃分词词典收录的词汇在各子学科中分布并不均匀所致。所以,优化分词词典将是下一步需要继续研究的问题之一。尽管本课题得到了国家社科基金与教育部人文社会科学基金的支持,但是,因为课题涉及的范围太过广泛,且因为时间因素很难作全面而深入的探讨,只能留待于将来作更进一步的探讨与研究。
其他文献
紧跟着我国社会主义经济的快速发展以及国民生活品质的持续提升,我国的能源危机问题也渐渐的展现出来,其不仅仅会在一定程度上影响国民的日常生活而且还极有可能会威胁社会的
专科学校作为我国高等教育的重要组成部分,在国民经济与社会发展中发挥着重要作用。近年来,随着国家经济体制改革的不断深化,高等教育日趋大众化,社会对教育需求呈多样性,高等学校
本论文旨在研究小学英语教材中的美育元素在教学中的应用现状。首先在分析前人研究的基础上确立自己的研究角度,进而将教材中的美育元素分维度进行全面具体的整理、归纳与分析
大型体育赛事场馆是保证与促进城市各项体育事业发展的必要条件,是城市功能建筑的重要组成部分之一。2008年北京奥运会、2010年广州亚运会、2011年深圳世界大学生运动会成功
在全球经济一体化的进程中自由贸易区扮演了重要的角色,既刺激本国出口经济的发展,又促进跨国贸易活动的往来。自由贸易区为国际贸易活动创造了宽松便利的环境,在加快本国进出口
本文是以舞蹈家刘凤学及其所重建的唐乐舞为对象而展开的研究。它涉及的重点是:一、梳理刘凤学学术经历及背景,探讨其中国现代舞观的建立与表现;二、通过史料的精读与对比为重建
本文以唐代敦煌弥勒经变造象为研究对象,以梅里亚姆在《音乐人类学》中提出的三维观念系统:观念→行为→音乐(即观念导致行为,行为导致结果)为研究思路,解析了造像中所体现的“世欲
庙会活动是中华文化的一种存在形态,也是传统的社会现象,它最早起源于远古时期的宗庙祭祀活动,随着社会的发展,庙会的本质属性也在逐渐的发生改变。如今,庙会活动不但是大众审美情