CADAL中国文学编年史系统的设计与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:njpolice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国有着数千年的文明史,古代、近代和当代文学作品浩如烟海。但随着时间的迁移,很多著作名篇、文化大家遗失在历史长河中。面对如恒河沙数的典籍文献,进一步的保护、整理和研究工作也变得非常复杂和浩繁。因此,借助于信息技术进行文学编年史研究的需求就变得愈加迫切。CADAL中国文学编年史项目着眼于构建中国文学编年史研究信息系统,以挖掘中国文学、历史、地方志、地理等相关数字资源的潜在价值为立项之本。与传统的文史系统相比,CADAL中国文学编年史系统并非简单地将所有文学作品原文数字化,而是将文学、历史、地理数据和信息技术相结合,着重于相关领域背景资料的整理,利用数据库技术、地理信息技术、多媒体技术、语义网技术和海量存储技术等,建立一套综合“文学”、“历史”、“地理”信息的中国文学编年史信息系统以提高数字资源的利用率。本文围绕CADAL文学编年史系统的研发,主要工作如下:第一,需求分析和总体架构。通过对用户需求及CADAL资源状况分析,给出了CADAL文学编年史系统的总体框架,包括基本文史信息检索,历史地理信息,多媒体应用等平台,并具体给出每个平台的功能及实现目标,最后给出了系统设计逻辑架构和物理架构。第二,关键技术。采用网络爬虫和基于正则表达式的信息抽取技术实现OCR书籍和网络信息提取与结构化;采用基于Lucene架构实现了全文搜索引擎;提出了中国古地图的自动标注与抽取算法CAMAME,以CADAL中本身包含的大量的数字化的中国古代地图集作为数据源,结合传统GIS数据的构建方法开发了地理信息平台;提出了基于CCA的语义搜索算法,实现了基于该算法的古诗自动配乐等多媒体技术在编年史系统的高层应用。
其他文献
刘基一生填词两百多首,俱见《写情集》中。历代学者对刘基词作不乏研究,大致可以分为词话点评、论文分析、词史专章、作品鉴赏等几个方面。刘基词题材广泛,内容丰厚。这些作
本文依据《诗经》等传世文献、远古自然气候、地理条件等分析殷商卜辞中应有暴风雨的占卜,并根据甲骨文字形、甲骨气象卜辞等考证甲骨文"■"、"■"、"■"、"■"等同为会意字"
<正>人性是不稳定的,变化的。教育作为一种引导人性的活动,也是变化的。制度相对于人性和教育来说是相对静态的、稳定的。当前,学者们总是希望通过稳定的制度来规范变化的教
叶紫,20世纪30年代湖南作家,他以血泪的经历和饱含深情的笔创作了战斗式的文学。文章梳理叶紫的个人经历,借鉴文化学和心理学方法,认为叶紫深受传统湖湘文化的影响,斗争意识
柴氏四隐,是衢州江山柴氏家族中柴望、柴随亨、柴元彪、柴元亨四从兄弟的合称。他们生活在南宋后期,亲眼目睹了国势日衰的时局,国亡后,他们满怀对故宋的眷恋,力辞新朝征辟,以
目的观察5-氨基酮戊酸光动力疗法(ALA-PDT)治疗中、重度痤疮的临床疗效。方法治疗组26例,予ALA-PDT照射20min,1次/周;对照组20例,予蓝光照射20min,1次/周,同时予口服维胺酯胶
本文通过对刘恒三个时期主要小说的阅读与分析发现,在刘恒的小说中存在着一种由隐到显的鲁迅影响,即他对鲁迅的继承性联系,我称之为“鲁迅语境”。这些“鲁迅语境”,在刘恒小
杨争光作为新时期文坛上的新写实作家以及当代著名的影视编剧,长期以来受到评论界的关注。但是将这些评论性的文章简单的归纳,我们发现对杨争光的研究一直停留在他最初成名的
<正>作为一门艺术学科,美术是学校教育的组成部分,对学生的培养有着积极的作用。随着新课改的深入,在中专美术教学中,教师要有效地组织教学,通过提高美术教学质量来提高学生
为适应反腐败形势的需要,韩国近期扩大了受贿罪主体范围,提高了法定刑,学者们对目前韩国刑法有关背信受赠罪的规定也提出了完善建议,以进一步严密法网。