基于XML的清人小学注疏五种词源研究 语料库的研制和应用

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:fashion_darling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:采用XML技术开展古籍专书的标注和研究,是计算机辅助语言研究的一个新领域。利用该标注技术建成的清人小学注疏五种词源研究语料库,对清代五部小学注疏词源研究成果的诸多方面有着准确的反映,为研究者查询利用相关词源研究成果提供了极大便利。该语料库的建设能为应用XML技术处理古籍文本,提取相关语言学知识提供借鉴。
  关键词:XML词源学建模技术数字化一、引言
  《广雅疏证》《说文解字注》《尔雅义疏》《方言笺疏》《释名疏证补》这五部清代小学注疏作品,不仅保存了历代探索字词源流丰富的诂训资料,而且能以“因声求义”之法疏解词义、补证理据、说解词源,堪称传统词源研究的一座宝库。现代先进的信息技术,为我们利用这些古籍开展现代词源学研究提供了有力支撑。
  我们利用XML标注技术[1]建成了清人小学注疏五种词源研究语料库,该语料库对清代五部小学注疏词源研究成果的诸多方面有着准确的反映。通过检索该语料库,研究者可以及时而清楚地了解:1.各家对某组语词是否同源的判断;2.各家论证某组语词同源关系所征引的文献证据和语音证据;3.各家研究古今字、通假字、异体字的情况。下文将对该语料库的建设作详细介绍。
  二、电子文本的生产
  清人小学注疏五种的电子文本由吾师尉迟治平教授及门下弟子共同完成,笔者为主要参与者之一。
  五种文本均系手工录入,所用底本之版本信息如下:
  《广雅疏证》(中华书局,王氏家刻本影印,1983年版)
  《说文解字注》(上海古籍出版社,经韵楼本影印,1981年版)
  《尔雅义疏》(上海古籍出版社,郝氏家刻本影印,1983年版)
  《方言笺疏》(上海古籍出版社,仁和王文韶红蝠山房校刊本影印,1983年版)
  《释名疏证补》(上海古籍出版社,光绪丙申刊本影印,1984年版)
  我们在制作以上电子文本的过程中,以“存真”为基本原则,尽量保持典籍原貌。
  所有文本文件均采用支持超大字符集的“UTF-8编码”。“UTF-8编码”是国际标准超大字符集统一码“Unicode”的一种变长字符编码,又称“万国码”。用在网页上,可以在同一页面显示简体中文、繁体中文及其他语言,其显示范围远大于“ANSI”。[2]在字体选择上,我们选择了“宋体-方正超大字符集”和“PMingLiU-ExtB”字体,以保证绝大多数古籍汉字的正确录入与显示。即便如此,清人小学注疏五种中依然有少数古文字、俗字、别字、冷僻字等无法正常录入和显示。针对此问题,我们对古籍文本在坚持“存真”的基本原则下,用既有的汉字字形来组字造字,其组字规则及示例如下:
  表1:
  所用符号 字形结构说明 示例
  * 左右结构 明: 日*月
  / 上下结构 皇: 白/王
  @ 包含结构 虎: 虍@几
  ﹢﹣ 增减部件 虔:虎-几+文
  
  所有文本均系繁体字纯文本,能够进行字符串的全文检索,并能够供诸位学人根据自己需要作进一步加工或标注。
  三、清人小学注疏五种的数据建模
  (一)构建树形结构图
  清人小学注疏五种横跨雅学、说文学两大领域,性质不同,体例不一,具体文档结构更是纷繁复杂。现要集合五种注疏,综合利用,惟有求同存异,小而统之,粗分大类。
  大致而言,五种注疏皆包含了序言、正文、附录三个部分。正文部分包含了大量我们需要分析的语言学属性。初步分析,五种注疏的正文部分都是篇目名和逐条小学注疏循环构成的一个整体。
  由小学原文和清人注疏构成的单条小学注疏的内部情况虽复杂多样,但各个研究者都可以根据自己的研究目的,对其内容作出自己的分析。因我们的研究主要关乎词源研究,所以我们将单条小学注疏下面细分出一条条分析声义同源的字词关系断语,字词关系断语下面又可以析分出数个声义同源的同源字。
  基于词源学的研究初衷,我们画出了清人小学注疏五种文档的树形结构图,如图1:
  
  
  
  
  
  
  
  
  
  
  
  图1:文档结构树形图
  (二)使用XSD Schema进行数据建模
  1.设计标记名
  鉴于我们需要提取分析的语言属性、语言知识都存储在清人小学注疏五种文档中的正文部分,为了文档结构层次的简洁、经济,我们拟直接以清人小学注疏五种正文作为我们的根元素,序言、附录等暂时被剥离,这不会影响我们工作的开展。另外,由于目前大量主流软件尚不支持汉字标记,我们便采用汉语拼音作为标记。对根元素及各节点子元素的标记分别定义如下:
  清人小学注疏五种正文:qingrenxiaoxuezhushu
  篇目名: pianmuming
  疏证语段:zhushuquanwen
  字词关系断语:ziciguanxiduanyu
  同源字:tongyuanzi
  2.编写扩展名为“xsd”的文件
  Schema是强大而灵活的数据建模工具。XML Schema的W3C的推荐标准叫作XSD,它可以准确地描述文档结构,即定义XML文件中允许哪些元素和属性、哪些元素和属性是必需的、哪些是可选的、允许的数据种类以及XML文件内容和结构的其他方面。使用XSD建模的成品是扩展名为“xsd”的源文件。[3]该文件代表了上面我们对清人小学注疏五种文档结构分析的成果,既能够链接到已有的XML文档中,以验证其文档的有效性,也可以作为模式架构,添加到文本编辑器中,以实现XML标记的自动标注。其源代码本文暂略。
  四、清人小学注疏五种的标注方法
  (一)添加架构
  Office2003声称全面支持XML,我们使用其组件Word2003中文版作为XML文档的编辑器。虽然目前还有大量的处理XML文档的专门软件,但它们远不及Word2003通用易得;特别是Word2003对超大字符集的支持功能在很多软件中还未实现,也促使我们选择它作为我们工作的软件平台。[4]
  首先,我们用Word2003打开我们制作的清人小学注疏五种电子纯文本。然后在“工具”菜单上,单击“模板和加载项”,然后单击“XML架构”选项卡。单击“添加架构”,浏览并找到要添加到架构库中的XML架构文件(xsd文件),然后单击“打开”。在“架构设置”对话框中,选择所需的选项,在“别名”框中键入架构的名称,最后点击“确定”完成。如图2:
  
  
  
  
  
  
  
  
  
  
  
  
  
  图2:添加架构的方法
  (二)半自动标注
  添加架构后,Word2003编辑框右边会出现如下“XML结构”任务窗格。我们可以依次在清人小学注疏五种文档中选择相应元素,然后在“XML结构”任务窗格的“选择一种元素并应用于当前的选定内容”框中单击一个元素,完成对该元素的标注,已标注的元素被图3所示红色光带嵌套。标注中或完成标注后,如文档结构不符合架构规则,将会在文档中以紫色波浪线标记出来,并在“XML结构”任务窗格中报告此违规错误。整个标注界面如图3所示:
  
  
  
  
  
  
  
  
  
  
  
  
  
  图3:标注的方法
  (三)生成XML文档
  完成标注,且通过架构验证的文档可选择“文件”菜单上的“另存为”命令,保存为“qingrenxiaoxuezhushu.xml”文档。为保证其他XML的软件也能阅读并处理我们保存为XML格式的文档数据,我们选择“仅保存数据”备选项。如图4:
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  图4:生成xml文档
  五、清人小学注疏五种的属性提取方法
  (一)XML与XSL的整合
  XML文档中事先标注过的元素和信息,都可利用XML的可扩展样式表技术加以提取。现欲提取“qingrenxiaoxuezhushu.xml”文档中的“字词关系断语”和“同源字”两元素,可编写“tongyuanzi.xsl”文档,其源代码如下:
  
  
  
  
  
  清人小学注疏同源字研究资料
  
  
  清人小学注疏同源字研究资料
  
  
  
  
  

  
  
  
  

  
  
  
  


  
  
  
  
  
  
  

  


  
  
  
  
  

  


  
  
  已标注的“qingrenxiaoxuezhushu.xml”在链接上述“tongyuanzi.xsl”文档后,经IE浏览器解析,可直接转换成我们需要的词源研究资料,包括我们教学中常用的各种同族词、古今字、通假字、异体字等方面的宝贵材料。其转换结果如图5:
  
  
  
  
  
  
  
  
  
  
  
  
  
  图5:样式表转换结果
  (二)HTML对XML的整合
  超级文本标记语言(即HTML)是一种超文本链接标记语言,依据该标准创建的HTML文件具有极强的描述和链接下级文本的功能。
  为此,我们创建了“清人小学注疏五种词源研究语料库.html”文件。该文件可以顺利地整合我们标注好的五种清人小学注疏的XML文档,并为浏览整个语料库提供一个初始界面,该语料库初始界面如图6:
  
  
  
  
  
  
  
  
  
  
  
  图6:清人小学注疏五种词源研究语料库
  六、结语
  长期以来,在古汉语研究领域,人们最常用的计算机功能仅仅是能提高阅读速度的全文检索,但这无助于增进对古籍文本的理解。关系数据库技术出现后,人们又将古籍文本的内容分析为字段和记录的形式以存储,从而为人们获得较系统的语言学知识开辟了新的途径。但是关系数据库往往会肢解原古籍文档内容的整体性,从而降低语言学典籍的可读性。
  XML有效避免了这些缺陷,它奉行数据存储与数据显示相分离的原则[5],人们可借助自定义标签,从XML文档中无限次地提取自己需要的语言学知识,且能在显示上与源数据相独立。清人小学注疏五种词源研究语料库的建设,是应用XML技术标注处理古籍文档的一次大胆尝试,将为应用XML技术处理古籍文本提供宝贵借鉴。
  
   (本文系教育部人文社会科学研究青年基金项目“清人小学注疏五种词源研究语料库建设及研究”的阶段性成果,项目编号为[11YJC740028])
  
  参考文献:
  [1][3][5]Extensible Markup Language (XML) 1.0 (Fifth Edition) [JB/OL]. http: //www.w3.org/TR/REC-xml,2008-11-26.
  [2]RFC 3629 - UTF-8, a transformation format of ISO 10646 [JB/OL].http://www.faqs.org/rfcs/rfc3629.html,2003-11-30.
  [4]Peter G.Aitken.微软XML技术指南[M].谢君英译.北京:中国电力出版社,2003.
  
  
  (甘勇湖北武汉 中南财经政法大学新闻与文化传播学院430073)

其他文献
期刊
建设工程投标报价决策中引入博弈论的精髓在于博弈中的一个理智决策者必须以考虑其他参与者的反应为基础来确定自身最理智的投标报价方案。应用信息不完全重复博弈的 KMRW“
摘 要 针对带协变量的负二项回归模型中离散参数估计问题,推广了极大似然估计和Bootstrap极大似然估计方法,并在绝对偏差的意义下,通过模拟研究和实际数据分析研究了估計的优良性.研究结果表明协变量和样本量均对离散参数估计有影响.  关键词 负二项回归模型;离散参数;极大似然估计;Bootstrap 极大似然估计;绝对偏差  中图分类号 O212.1文献标识码 A
以色列萨巴弗来克斯公司开发出一种深海养鱼系统。该系统由多个先进材料制成的网箱构成,这些网箱可固定在海床上一点,也可固定在配套的漂浮物上;它们具有良好的柔韧性,可随海浪漂
语言使用特点反映了一定时期的民众思想状态。本文对比文革时期新词句与当今网络流行语在表达习惯、灵活程度、集散现象和语言风格四个方面的不同特点,分析得出民众从偏激到平
针对我国沪深A股市场中实行ST的上市房地产企业进行实证研究,从企业的盈利水平、营运能力、偿债能力、现金流量状况和公司治理等5个角度综合选取财务指标和非财务指标等23个
摘要:李建树是宁波著名的儿童文学作家。他的作品幽默风趣、质朴亲和,独具特色,其风格的形成一定程度上得益于对宁波方言的娴熟运用。作品中散落其间的具有宁波地域特色的方言词汇、大量重叠形式的运用、村言土语刻画市井人物以及宁波俗语谣谚的有机融合,使作品形成了独特的地域文化色彩。  关键词:李建树方言词汇俗语谣谚重叠形式地域色彩李建树,宁波人,知名儿童文学作家。理工科出身的他,一次偶然的念想涉足儿童文学创作
新三板企业的股权价值可以通过实物期权理论进行评估,但是由于新三板市场交易的非连续性,给其中的参数估计带来难度.借鉴风险评估领域的PFM模型原理,通过同行业创业板上市公
从社会网络视角对上市公司的交叉持股关系进行研究,发现公司的交叉持股行为既是自主的,也镶嵌于社会网络中,会遵循一定的原则或基于某些特定目的选择持股对象;共同被持股公司
资产证券化交易的法律实质是权利义务的变动更新,引发权利变动的事由除了权利主体变动外,主要是权利结构变动,即通过权利合成、分解和连接点设计等导致权利义务重新组合、不