论文部分内容阅读
在长期的使用和保存过程中,数字资源的识别、理解和呈现等方面会存在很多威胁。这些威胁会使用户无法理解和使用这些数字资源。发现并消除这些威胁,可以确保数字对象的有效利用。因此,对数字对象进行检测来发现这些威胁是十分必要的。在本文中,设计了对数字保存的可呈现性进行风险检测的方法,并进行了实验测试,这是数字资源长期保存风险检测的一部分。首先,给出了可呈现性的定义和可呈现性风险的类型。本文中的可呈现性是指系统中所保存的数字资源能以某种方式被用户使用,而且所使用的方式能够呈现出这个数字对象的重要属性。数字保存可呈现性的风险类型包括:没有完整清晰地抓取重要属性,使得重要属性无法有效的呈现;重要属性在长期保存过程中丢失或改变;没有记录呈现数字对象需要的环境信息,或虽描述了软件信息,但缺少该软件运行所需的其他信息;无法准确识别呈现数字对象所需的环境信息;表现型的数字对象,所包含的文件对象之间缺少呈现次序信息或者呈现次序信息错误,导致重要属性无法呈现或呈现错误等。其次,设计可呈现性风险型元数据。它包括:数字对象方面的元数据有数字对象唯一标识符、数字对象类型、数字对象的重要属性、数字对象的编码次数、文件格式、创建程序、存储介质、环境信息、环境关系;事件方面的元数据有迁移事件、解压事件、介质刷新事件、病毒检测事件;保存政策方面的元数据有数字迁移准确率、保存介质刷新频率、病毒检测周期。再次,选择一个具体的保存系统(CNKI),收集用于实验的数字对象样本,然后收集每个数字对象的可呈现性风险型元数据。采用分层抽样法从CNKI抽取所需的样本,从CNKI的保存型元数据、描述型元数据和管理型元数据中提取风险型元数据元素的值。然后编译代码,检查数字对象样本集的风险状态,分析统计检测结果,并制定措施,减少或避免风险。该检测包括:零维度、一维度、二维度和三维度风险检测。结果表明,较高的风险点主要有数字对象的重要属性、环境关系、介质刷新事件和迁移事件。最后,指出本论文检测方法的不足,并阐述了对未来数字保存风险检测工作的期望。