面向主题的万维网信息挖掘

来源 :南京大学 | 被引量 : 0次 | 上传用户:qian7122011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网自二十世纪九十年代初有了第一个真正意义上的网页以后,其信息量与日俱增,人们因此庆幸摆脱了信息匮乏的困境。然而,万维网信息的海量性、复杂性、分布性以及非结构性,使人们在利用它来搜寻和获取有用信息的时候常常不能如意。 面对这样的问题,人们一直在探寻各种各样的解决方法。这些解决方法可以大致分为两个角度: 一个角度是从万维网信息的表示出发,通过研究和制定有效的万维网表示规范来促进信息的规范表示,从而方便人们在此基础上开发有效的信息搜索服务,例如,使用HTML语言让人们可以生动地阅读万维网信息,开发XML语言让计算机可以自动处理网页所含的信息,发展资源描述框架(RDF),以便提供一个通用的万维网资源描述规范,等等。 另一个角度是从研究现有的万维网信息特性出发,通过开发特有的搜索技术,来为人们提供信息搜索服务。例如,人们熟知的搜索引擎,另外还有万维网信息挖掘,等等。 以上解决方法和技术都有各自的优缺点。现在的通用搜索引擎可以快速地为人们提供感兴趣的网页,但它缺少对目的网页的语义分析,只能简单地提供一组相关的网页,人们还要通过浏览这些网页获得进一步的知识。万维网挖掘技术包含各种不同的技术,不同技术在解决特定问题上有奇效,但适用范围比较小。XML等技术需要人们的大力推广,形成一定应用广度后,才能显示其优势。 分析和总结了万维网的信息表示方式以及主要的信息搜索机制之后,我们根据用户利用万维网获取信息和知识的一般过程,提出了自己的万维网搜索系统模型。根据特定用户对信息的需求,建立面向主题的搜索机制比建立通用的搜索机制更有价值。因此,设计的系统模型,它的核心部分,就是面向主题的万维网信息挖掘。 万维网信息挖掘这方面开展的工作应该说有不少,但系统地讨论面向主题的万维网信息挖掘,这方面的工作还不多。在整个工作中,我们综合运用了多种技术和方法,并在运用中,根据面向主题这一特点,做了改进。具体的工作主要由如下相互关联的三大部分组成。 主题资源在万维网上的扩展。该部分的工作是利用一个主题网页初始集在万维网上进行有效的扩展,以便获得一个大规模的主题相关的主题资源集。我们设计了自己的“主题集中式爬虫”。通过实验,验证了它在主题扩展中表现很好。在介绍相关工作的基础上,总结了它的若干个特色,即策略的可调节性,工作的高效性,设计的可扩展性,等等。 主题资源的结构挖掘。该部分利用主题资源网页中的超链结构及相关信息进行分析计算,以便获得主题资源中的具有个性化色彩的重要网页。其中主要介绍了HITS这一超链结构分析算法,并对该算法进行了改进。实验表明,改进后的算法在主题资源的超链分析中,表现更加出色。 主题资源的内容挖掘。该部分的工作是为了能够对主题资源的内容进行分析、归纳,提取出结构化的信息,以方便用户在这些信息的指导下,有选择、有效率的使用主题资源。主要的工作是解决两大问题:建立合适的知识框架;利用机器学习等方法对主题资源进行分析以便抽取信息填充知识框架。后一问题又可以分为若干小问题,而我们集中进行了一个问题的解决,即获取主题资源中网页的分类信息。我们利用主题资源的特性,对普通的分类算法进行了改进,从而提高了对主题资源网页的分类正确率。 以上的工作构成了万维网主题资源挖掘的主要工作。当然,要将该项工作深入开展下去,还有很多工作要做,例如在主题资源的内容挖掘工作中,除了分类的工作外,还有属性挖掘、关系识别等相关的工作有待创造性地展开。这些工作的深入开展,将会使面向主题的万维网信息挖掘这方面的研究更加完善,也更有应用价值。
其他文献
原来的一些性能分析工具主要是为集群规模的并行计算环境开发的,已经不适应于大规模的分布式并行计算环境,因此该文从分布式的角度出发,利用CORBA为分布式计算提供的强大支撑
论文详细研究了GPRS网络的体系结构;协议;QoS机制以及保证QoS前提下GPRS网络协议的应用.论文首先从无线移动通讯入手,介绍了无线网络体系结构及相关协议,进而分析了无线网络
该论文通过对首都机场自动广播系统的现状分析,总结了以往系统的可取之处和不足之处,并结合对乌鲁木齐机场自动广播应用需求的分析,提出了通用数字自动广播系统的功能需求与
首先,文中论述了三种典型的分布式VoD服务器(层次型DVS、网状DVS和基于集群服务器DVS)的节目存储和轮换策略.其次,经对中山大学软件所VoD系统的用户点播数据进行细致分析,发
该文所介绍的实例CRP是一个适合中小学校园资源管理的一个平台,它包括了学籍管理、成绩管理、排课管理等各个管理子系统,为校园办公和资源管理提供信息化解决方案.该文介绍了
随着对外开放的不断深入,我国英语学习者的数量急剧增加,对英语学习者的文章进行相关分析研究显得日趋重要。英文作文智能评改系统综合利用自然语言处理、统计学、语料库语言
随着信息技术的飞速发展,特别是互联网技术的普及,每天产生的数据呈现爆炸式增长,这些数据基本都具有:高速到达、数据量大、实时性要求高等特点,是典型的数据流。如今,数据流
近些年随着互联网和流媒体技术的发展,流媒体服务逐渐成为互联网的重要应用,并且趋向于向大规模、高质量的方向发展。大规模流媒体服务也成为近年来的研究热点。相关研究表明
该文根据PVM模型,使用JAVA和CORBA实现了一个网络环境下异构的并行虚拟机,与传统的并行虚拟机PVM相比其特点如下:将CORBA技术引入并行处理,通过ORB作为底层的通信渠道,使得并
引入移动Agent技术,利用其在代码移动方面的优势,可以解诀移动嵌入式计算中资源受限的难题.该论文提供了从移动Agent规范到移动计算的Agent平台直至移动嵌入式终端软件的一整