论文部分内容阅读
随着计算机检索技术的发展,如何将高效的计算机检索技术取代繁重的古文献检索,已经成为计算机检索理论的重要实践课题,也是古籍数字化工作者的奋斗目标。在众多种类的古文献中,中医古文献有着特殊的历史地位,它是现代中医技术发展研究的重要依据,是中医文化的源泉,是利用率最高的一类古籍文献。所以,中医古文献检索系统的研究有着重要的现实意义和学术意义,对保护中医古文献也起到了积极作用。 从20世纪80年代开始,文献工作者已经作了大量的数字化整理工作。但在中医古文献组织整理或检索系统建立时,发现中医古文献的类型繁多,如何组织文献以及如何利用已经整理好的古文献是建立文献检索系统的关键之一。因此,本研究提出根据古文献整理的情况来划分数据类型。即未加工整理的为原籍文献数据,整理得非常完整的为专题数据,对古文献进行了标引的为标引数据,还有部分数据是以图片形式存在的称为原籍图像数据。中医古文献检索系统的研究主要是从古文献数据的组织存储及检索两方面进行研究。存储方面,主要考虑如何设计数据库才能满足古文献的特点。在四类数据中原籍古文献数据库结构的设计成为一个难点,因为古籍文献的体裁是多种多样的,如何将不同体裁的文献以相同数据库结构存储起来是比较困难的。经过研究发现,古文献虽然体裁是多样的,但从目录学角度来看,无论什么样的体裁都有清晰明确的目录级别,所以本研究打破常规的以文献内容划分字段的数据库设计模式,而改为以目录级别来划分数据库结构,这种数据库结构能把古文献中所有文体的数据都能存储在一个数据库中。在检索方面,要考虑什么样的检索策略和检索结果的浏览方式能够适应古文献的特点。在检索策略上除了一般检索系统中的一次检索、二次检索、组合检索等,本研究增加了语义检索与后控检索。语义检索是系统根据用户的检索词能够将包含相同语义的所有内容都检索出来;后控检索是将自然语言的检索与信息检索语言相结合,有效的控制了检索范围。语义检索与后控检索的利用大大提高了古文献的查准率和查全率。在检索结果的浏览方式研究上,除一般浏览方式外,本研究还实现了摘要浏览以及自然段浏览。摘要浏览,即以在检索词周围产生摘要的形式进行检索结果的浏览;自然段浏览,即以只显示检索词所在自然段的形式进行浏览。 本文针对中医古文献检索而提出的数据库的设计、检索策略、以及浏览表示方法等,经实验表明具有一定的先进性,能够兼容各类古文献,能够提高查准率与查全率,能够方便检索用户对检索结果输出的各种要求。