论文部分内容阅读
数据挖掘和知识发现为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。多媒体挖掘就是从大量多媒体集中,通过综合分析视听特性和语义,发现隐含的、有效的、有价值的、可理解的模式,进而发现知识,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。 本文的研究思路并未局限于具体挖掘算法的设计,而是从挖掘系统本身的构建入手,就如何提高系统的整体性、更有效地实现挖掘功能做了较为深入的研究,给出了一个基于数据挖掘技术的面向多种Web数据的挖掘系统模型。 本文针对目前国际和国内多媒体数据挖掘技术的发展现状和趋势,首先讨论了数据挖掘和知识发现的基本理论;然后分析了网络信息检索与Web挖掘的特征,包括挖掘对象的特征、挖掘和知识发现所需的理论和技术,接着研究了多媒体数据挖掘的特点和技术;进而提出了一个基于Web的多媒体数据挖掘系统的框架结构模型,并对其功能模块进行了详细的分析和设计,设计了媒体特征库中的知识表示方法,并提出了一种联合查询的优化方案和两种多媒体数据挖掘算法。 该模型首先通过多媒体概念检索技术智能化地在Internet上搜索Web页面,然后利用异构信息交换技术将多媒体数据保存到构建的媒体特征库中,在从用户查询界面获得用户的查询要求后,通过向量空间模型进行多媒体信息检索,然后利用相关反馈技术提高信息检索的质量,最后将检索的结果传送给用户。 本文主要做了以下几方面的工作: 1.探讨了数据挖掘和Web数据挖掘的基本思想和技术 数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘是知识发现中的核心作,主要研究发现知识的各种方法和技术。Web挖掘是从Web资源上抽取信息或知识的过程,它是将传统的数据挖掘的思想和方法应用于Web,从Web中抽取感兴趣的、潜在的、有用的模式和隐藏信息。 2.研究了多媒体数据挖掘的特点和方法 Web数据和多媒体数据半结构化或非结构化的特点决定了Web中多媒体挖掘不能套用传统的数据挖掘的模式,文章讨论了如何将半结构化或非结构化的数据转化或映射为结构化的数据,使Web挖掘系统和数据库紧密结合,提供一个集成的信息处理环境。山东师范大学硕士论文基于Web的多媒体数据挖掘的研究 3.提出了一个基于Web的多媒体数据挖掘系统模型,并对模型各部分的工作机理做了详细设计;针对图像数据,设计了较为集成的多媒体数据特征库;设计使用高维度关联规则挖掘算法和模糊神经网络挖掘算法SFNN来实现隐含知识的挖掘。 特征提取是CBIR系统的核心构件,特征提取的好坏对整个CBIR系统有着重要的影响,直接关系到整个系统的检索准确度、检索效果和检索速度。两种挖掘算法都能较有效地用于本文设计的模型的知识挖掘,同时也有利于下一步的知识表达和解释。为进一步的多媒体数据挖掘系统具体开发打下了坚实的基础。关键词:数据挖掘,知识发现,Web,多媒体数据挖掘,媒体特征库