论文部分内容阅读
针对数字图书馆下的信息资源组织建设问题,论文从信息资源的管理方法及网络信息的数据挖掘技术两个方面进行了研究。 首先从信息资源数字化、多媒体化、网络化等方面分析了数字图书馆信息资源的特点及现行编目方法在网络信息资源描述方面的局限性,并在此基础上阐述了用于数字图书馆信息资源描述的元数据方法;阐述了元数据的定义、类型、结构、编码语言等基础理论;研究了元数据的互操作性。对典型元数据方案都柏林核心集的应用进行了分析,探索了都柏林核心集元素的格式与应用;比较了都柏林核心集与现行编目方法的异同;并对网络信息资源的整序问题进行了讨论。 在网络信息的数据挖掘技术方面,针对传统向量空间模型存在的不足,运用模糊数学相关概念构造了模糊特征向量空间模型,提出了文档模糊特征提取及模糊特征向量的构造方法;提出了基于模糊向量空间模型的三种聚类算法:K均值聚类算法、核聚类算法、基于蚁群智能的聚类算法。其中,K均值聚类算法与核聚类算法需要预先给定聚类数目,通过不断迭代修正聚类中心,使聚类趋于稳定和精确;蚁群聚类算法无需预先给定类数,而是依据文档相似度,让蚁群携带文档移动。蚁群合作可表现出高度智能性,可以较好的完成聚类任务。应用人工智能领域的模糊逻辑、神经网络、机器学习等理论,提出了三种文档信息资源的自动分类方法:基于加权模糊推理网络的文档自动分类算法;基于自组织特征映射网络的文档自动分类算法;基于级联式支持向量机的文档自动分类算法。前两种算法首先依据已知类别的若干分类样本,构造满足输入输出关系的分类网络,然后应用不同的迭代算法完成网络的训练。加权模糊推理网络采用高斯-塞德尔迭代法求解满足输入输出映射关系的一组权系数。自组织特征映射网络采用无教师和有教师相结合的方式获得网络的分类能力。支持向量机分类算法具有较高的泛化性能,但是只能处理两类模式分类问题,级联式支持向量机可处理多个模式的分类。以上每种算法均给出了详细的分类原理和实施方案,实验部分证明了算法的有效性及可行性。 最后,论文提出了加强数字图书馆管理及知识发现的一些对策。