敦煌学全文数据库设计实现

来源 :兰州大学 | 被引量 : 0次 | 上传用户:tina_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文结合CALIS项目敦煌学全文数据库的建立过程,论述了整个全文数据库开发的步骤,并详细讨论了建库当中最重要的三个技术问题,即;切分词典的建立过程、索引文件倒排文档的建立过程以及全文数据库中所涉及汉语词汇的切分问题.并对现有的常用方法进行了分析研究,提出了一些改进措施.全文数据库经常采用的词典建立方法是动态建立法,该方法由于需要人工分词,所以费时费力.该文提出了统计抽样的方法来建立词典.此方法完全采用计算机进行词汇的统计,同时对词汇出现的频率也进行的统计计算,为词汇切分算法的实现打下的基础;在对字索引和索引两种机制优缺点对比的基础上,提出了双索引机制的方法,它结合了两种索引机制优点,既可以加快全文检索的速度,又能避免因词典中词索引项的收集的不完全而导致的检索不全的问题;对于全文数据库中所涉及的词汇的切分问题,在基于常用的机械切分匹配法的基础之上,提出了采用逻辑推理方法解决部分词汇的岐义切分问题.该文所提出的方法在敦煌学全文数据库中取得了比较理想的结果,对于类似的专业数据库也具有一定的应用前景.
其他文献
论文中介绍了三维数据场可视化技术的基本理论,主要研究了两类不同的三维数据场可视化技术——构造三维空间规则数据场中的等值面技术:三维空间规则数据场的直接体绘制.还介
小波变换(WaveletTransform应用于图像的压缩,已经成为国际国内图像工作者的热点问题,并将在新的国际标准中被采用.传统小波变换算法在很大程度上压缩了图像信息,但由于算法
该文在详细讨论基于角色访问控制概念及模型、CORBA安全服务的访问控制机制的基础上,给出CORBA保护配置的形式化定义及访问决策算法,并探讨CORBA安全服务如何支持基于角色的
该文定义了WebMIS系统的抽象模型;在此基础上,使用应用程序生成技术和模板技术,建立了WebMIS系统生成平台一般模型及其体系结构,然后针对使用ASP技术的WebMIS系统,给出了平台
Internet引发的全球化信息革命对传统GIS领域产生了很大的冲击。传统的GIS在信息分布、信息共享、操作分布、操作共享等方面都已不能适应Internet网络世界的应用需求。在这种
该文从电子邮件系统原理和安全入手,着重分析了电子邮件系统的安全问题以及当前普遍采用的解决方案,分析了它们的不足之处并提出了文本分流机制的电子邮件过滤系统.我们采用
该文是针对面向对象程序可视化图形算法的研究报告.内容大致包括三部分:1、对软件理解和可视化基本理论的介绍,尤其针对图形算法做了相对完整的总结,包括概况与研究现状、算
热电效应的发现已有150多年的历史,然而,在其后近100年的过程中由于热电转换效率低下,其应用一直受到限制。直到本世纪50年代随着热电性能较好的半导体材料的发现,温差电技术才得
该文回顾了近年来知识发现或数据挖掘的研究成果,介绍了数据挖掘系统的体系结构,比较了用于数据挖掘的几种算法和技术,并针对目前的研究现状及存在的问题,实践上,以"胜大超市
云计算(Cloud Computing)模式的广泛应用使得用户对数据中心(DateCenter)的消费模式由传统的自建自用向大规模集中化建设转变。随着数据中心的规模越来越大,其中的服务器、交