论文部分内容阅读
随着社会经济发展,计算机技术和网络技术的迅速普及,人们面对越来越丰富的信息,这表现在信息数量增加和类型增多两个方面。在信息处理越来越成为专业人员日常工作必要部分的同时,社会各界对信息处理更是深入到知识的层面。人们需要从信息集合中获取自己需要的知识,洞察信息深层的规律。
人们过去习惯的寻找数据、识别数据的方法在很多场合下已经不适用,因此需要对信息做进一步处理。信息检索是一种信息获取方式,它以一定的策略在目标数据源上搜集和发现信息,在对信息进行处理和组织后,为相应的用户提供信息查询服务。在此前提下研究智能检索不仅有理论意义,它的研究成果也能很快地转换成实用技术,具有很强的现实意义。智能信息检索就是模拟人类的检索动作和思维方法,结合计算机运算速度快、数据存储量大的特点,以最快的速度将最准确的信息呈现在使用者面前。人们将人工智能的技术与方法引入到信息检索系统,使后者具有一定程度的智能特征,在更高的层次上完善其功能。智能信息检索的目的是使信息检索系统“理解”文件包含的信息内容和用户的信息需要,它在对内容的分析理解、内容表达、知识学习、推理机制、决策等基础上实现检索的智能化。智能信息检索模型具备基于自然语言的信息检索、个性化服务和多数据源等主要特征。目前,该领域的理论研究、模型设计和系统建设已经成为国际学术界和相关企业关注的热点。
本文在充分评价分析国内外研究现状的前提下,全面、系统、深入地研究了智能检索模型的信息收集、整理、分析、展示等模块的功能设计,提出了一个完整的设计框架和解决方案。该研究可对备受关注的检索领域的数据获取、分析、甄别以及数据的展示提供方法和理论指导。主要研究内容是利用数据挖掘和系统复杂性理论,在海量和复杂的网络数据中,通过学习和识别用户行为模式,发现那些明显行为的范式,即所谓聚类模式;通过高效简洁的判别算法,实现对使用行为的计算机自动甄别和记录,进而为目标用户提供准确有效的数据信息。同时,由于该领域问题的复杂性和多样性,本文引入本体技术和构件技术,使检索模型具有较大的扩展性。论文首先介绍了研究背景以及课题研究的意义与价值,然后对国内外相关领域研究现状和主要问题进行了综述,以聚焦研究目标,最后提出本文的研究思路、研究方法、主要研究内容、创新点以及全文的结构安排。全文共分七章,各章的主要内容和组织结构如下:
第0章前言,首先介绍了本文的选题背景、意义和主要研究内容。在信息量快速增加的时代,传统的工具手段逐渐显示出它们的局限性,因此在传统工具的基础上,改进和设计新的方法工具是本文的目的和背景。接着介绍了智能检索的产生与现状。任何研究都是以前人的研究基础为起点的,通过对智能检索的产生与现状进行了解,能够让读者了解目前该领域所处的状态、面临的问题、研究的热点,了解笔者工作的现实意义,同时也能够为其它研究者提供指导工作。检索工具经历了从本地结构化查找到目录分类体系再到关键字查找等几个大的阶段,目前正向语义、概念Web检索等智能化的方面发展。人工智能、数据挖掘的理论和技术工具正越来越多的和该领域结合起来。在综合国内外研究现状的基础上,笔者希望解决目前面临的部分困境和问题,能够在该领域有所突破,为后来的研究者提供理论和实践的指导。通过本论文的研究,进一步掌握情报学、信息组织、信息检索、信息技术等相关学科知识,进一步了解管理科学与工程领域前沿的发展状况,培养创新精神以及独立从事科学研究的能力;掌握分布式技术、信息检索、知识发现、Web挖掘等方面的理论与实践,深入剖析数据检索系统的机理,进一步丰富信息组织与检索的理论,建立相应的检索模型,验证相关的理论丰富检索工具。
第1章讨论构件在智能检索模型设计中的应用。软件的总体设计是结构设计,表现各模块之间的组成关系,软件的详细设计是软件模块内的过程设计。如能全面领会这一模块化设计的要领,就能将一个系统分解成若干个容易管理的部分,并使得每一部分可以被单独加工。根据摩尔法则,用局域网链接各个电脑终端可大大增强整体性能,而根据“网络价值与使用它的人数平方成正比”的梅特卡夫法则,价值也可实现快速增值。由此可以看出,基于构件模块的设计不仅在模型设计和系统建设上有重要的作用,还能充分发挥每个部件的作用,从而实现巨大的效益。软件框架模型是基于软构件技术,是能够完整描述应用系统的软件模型。在设计软件系统之前,软件框架模型能够描述目标系统的功能和动态特性,使该系统能够快速部署到不同的领域中。
第2章深入讨论智能检索涉及的相关技术。智能检索模型的建立依赖于一系列的支持技术。本章对本体技术、数据挖掘、分类/聚类、数据获取技术进行了探讨。面向对象的技术是设计软件系统的主要技术,但是对于检索模型这种规模大、涉及概念广的模型,若单纯使用面向对象的技术,设计的颗粒过小,容易过度的关注于局部。使用本体的概念不但解决了这个问题,而且能够是设计者和用户更好、更直观的理解系统的相关概念。数据挖掘与分类/聚类是处理海量数据的关键手段,本章对其主要分类和方法进行了讨论,并且着重讨论了它们在信息处理方面的应用。检索系统处理的目标对象是数据,数据的种类、来源很多且形式各不相同。有的数据能够非常容易的被获得,而大部分数据则需要通过相应的接口转接后才能被导入检索系统进行相应的分析处理。因此,如何获取信息资源尤其是如何从万维网上快速高效地获取信息资源,就成了智能信息检索系统必须解决的问题之一。在本章的第三部分中,首先分析了传统信息收集的方法及其不足,然后在此基础上,提出了一种分布式信息资源收集方法,对上面的问题加以解决。
第3章对检索模型中的算法库进行了设计。目前针对智能检索的算法很多,不同的算法在不同的应用中能够发挥各自不同的重要作用。换而言之就是不存在一种普遍适用的算法来解决检索过程中的所有问题。因此,如何为检索过程中的数据处理,提供最适合的处理方法是研究算法库的核心内容。本章在对信息检索模型和智能检索算法进行分类研究的基础上,进行算法库的设计。一个设计良好的算法库将做为智能检索模型的重要构件,在数据处理的各个部分发挥重要的作用。
第4章对智能检索框架模型进行了设计。本章在分析检索模型需要的功能模块和工作流程的基础上,设计了模型的体系结构和系统工作流程。在此基础上使用构件技术完成了基于总线的智能检索模型的设计,并详细讨论系统结构、总线结构、适配器功能结构、构件库等核心部件的设计。
第5章介绍了一个基于使用构件技术搭建的智能检索平台——InfoVisModel系统。该系统的实现思路分为五个步骤:(1)信息采集,从数据库中或web上采集需要的信息资源;(2)信息标引,对采集得到的信息资源进行标引形成原始数据源;(3)信息检索,根据检索需要从原始数据源中查询符合结果的信息列表;(4)可视化数据生成,将检索结果中需要进行可视化展现的数据转换为可视化数据;(5)可视化界面展示,将可视化数据映射为可视化对象展现在可视化界面上。
第6章对全文进行总结,并对未来发展和研究方向进行展望。
其中1、2、3、4章组成了一个完整的模型体系,第5章对其有用性和有效性进行了论证。
本文的创新之处体现在模型和技术上,在分析已有的检索工具和理论的基础上,提出基于构件的智能检索的框架模型。它将整个Web理解为一个数据源,利用元搜索引擎获取的知识形成一个异构数据源的目录体系,在此基础上进行深度数据检索,接着利用算法库对数据进行智能分析处理,进而形成一个“平面检索+深度检索”的精确数据检索模型体系。对于信息收集使用了三个层面的概念,即同一检索平台的检索功能的完成、异构数据平台的数据整合以及客户端检索模块分布性研究,最终实现用户指定的自动整合。在信息整理方面,考虑到web数据的复杂性和处理技术的复杂性,本文通过定义一个架构让使用者能够根据自己的需求设计相应的数据处理模块。通过对搜索请求的理解和对数据内容的分析,利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,将用户感兴趣的、对用户有用的信息提交给用户。这其中也包含了服务多项化、个性化,结果精确化等方面的研究。
模型至少能够工作在目前主流数据源上,具有通用搜索引擎的检索功能。该模型的研究重点不在于对某种算法的研究或优化,而在于建立相应的框架接口,使设计者和用户能够在不修改框架的情况下根据需要添加、修改检索的算法,从而使该模型具有一定的通用性,并可以根据不同领域和个人的需要实现快速配置。