基于Ontology的万维网内容挖掘

来源 :南京大学 | 被引量 : 0次 | 上传用户:q3177848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网自20世纪90年代初有了第一个真正意义上的网页之后,其信息量与日俱增,速度发展之快,是始料未及的。人们庆幸摆脱了信息匮乏的困境之余,又因为万维网的海量性、复杂性、分布性以及非结构性而陷入了“信息过量”的境地。万维网的这些特性,使得人们在利用它来搜寻和获取有用的信息时候常常不能如意。 面对这样的问题,人们一直在探寻各种各样的解决方法。这些解决方法大致可以分为两个途径: 一是从万维网的信息表示出发,通过研究和制定有效的万维网表示规范来促进信息的规范表示,从而方便人们在此基础上开发有效的信息捡索等服务。如开发XML语言让计算机可以识别和自动处理网页文档包含的信息,推广资源描述框架(ResourceDescriptionFramework),以便提供一个通用的万维网资源描述规范,实现知识表示和共享的Ontology技术,等等。 另外可以从研究万维网的信息特性出发,通过开发特有的搜索技术和分析处理技术来为人们提供有针对性的、高效的信息获取服务。例如,人们熟知的搜索引擎,万维网信息挖掘等。 以上的解决方法和技术都各有优缺点。现有的许多通用搜索引擎可以快速地为人们提供感兴趣的网页和文档,但缺少对网页的语义分析,只能简单地通过全文匹配和一些超链分析方法等提供一组相关的页面,人们还要通过浏览这些网页来获得进一步的信息,经常出现与原意不符的情况。而先进的信息表示技术如XML等目前还未形成一定的应用广度(仍以HTML为主),还需要人们的大力推广。此外,万维网挖掘技术包含的范围也很大,不同技术在解决特定问题上有奇效,但缺乏通用性,使用范围较小。 分析和总结了目前万维网的信息表示方式及主要的信息获取方式后,我们根据用户利用万维网获取信息的一般过程,提出了自己的面向主题的万维网搜索系统模型。系统根据用户对信息的特定需求,建立了面向主题的搜索机制,其核心部分就是面向主题的万维网信息挖掘(WebMining)。万维网信息挖掘是一个很大的研究领域,开展的相关工作不少,但基于主题的工作还不多。作为其中一个重要的分支——万维网内容挖掘(WebContentMining),其研究成果直接关系到系统中搜索结果和智能查询结果的好坏,尤其是在面向主题的基础上,如何系统地运用多种技术在半结构化的HTML网页中获取内容信息是我们面临的一个挑战。 我们将上述两种途径结合起来,把信息表示中的新兴技术——Ontology与万维网内容挖掘相结合,并对一些方法进行了改进,运用于系统中,获得了较好的效果。具体的工作主要由如下相互关联的三大部分组成。 基于Ontology的网页分类。该部分的工作就是在Ontology定义的基础上,采用TFIDF和NB方法对相关主题下的网页进行了性质上的分类,我们根据主题资源的特点,采用EM方法对原本表现普通的分类算法进行了改进,并根据HTML网页的特点提出了混合文本分类的策略,从而提高了对主题资源网页分类的正确率。 基于Ontology的网页关系识别。在该部分工作中,我们同样利用了Ontology中的关系实例,在分类的基础上利用规则对网页之间的关系进行了自动识别。我们借鉴了一些机器学习的方法,根据主题资源的特点,提出了自行设计的过程实现了规则的自动生成,同时进行了一些优化工作。最后将结果应用到了系统中。 Web文档的信息抽取。这部分的工作在回顾了信息抽取方面的研究工作后,在系统中实现了基于HTML的网页元数据提取,具有较好的通用性。系统实现了一个小型的元数据抽取系统——MEDES,并在获取的元数据基础上,实现了基于元数据的查询,进一步优化了搜索效果。 以上工作的成果都在我们的系统中得到了具体应用和实现,并且效果良好。但是这些工作只是一个起步,还有很多工作需要深入开展下去,如网页内部关系识别,信息抽取规则的自动规约等,三方面知识的综合等。我们相信,这些工作的深入开展,将会使系统在知识获取和利用方面的研究更加完善,也更有应用价值。
其他文献
当前的Internet网络,存在着标准化周期长和兼容性差的问题,给动态快速地引入新服务带来了困难。为了在网络中快速地引入和展开新服务,人们提出了主动网络的概念。主动网络允许用
本文我们研究的是使用概念分析的方法进行程序的重构。概念就是有共同属性的所有对象的集合。概念分析的就是求解概念格的计算方法。早期是作为数学理论提出来的,目的是为了重
从目前的网络安全状况来看,计算机病毒已经成为威胁网络安全的重要因素.计算机病毒带给我们的破坏和损失是难以估量的,特别是从2001年以来,各种病毒和蠕虫更是层出不穷,譬如,
随着计算机及Internet相关技术的迅速发展,人们已经把越来越多的工作放到了网上进行。网络的应用层次正在不断深入,应用领域扩展到各行各业。伴随电子商务、电子政务的普及和发
20世纪90年代以来,随着网络计算的普及,使得中间件技术成为了当前发展最快,应用最为广泛的网络计算技术之一,其成功典例当属Sun公司的J2EE/EJB、OMG的CORBA和Microsoft的DCOM
网络仿真技术在网络研究中所起的重要作用已引起人们越来越多的关注。目前地面网络仿真技术应用广泛,各方面都有了成熟的方法。但是具有动态拓扑和无线链路的卫星网络的仿真技
当前中国数字电视方兴未艾,各电视台正积极进行数字化改造.该文以解决演播室数字化过程中数字视音频信号传输中所存在问题为目的,在对国内外研究现状进行了深入分析地基础上,
随着互联网的迅速扩展,计算机安全事件每年也以惊人的数量增长,网络安全日益受到人们的关注。作为计算机安全中不可缺少的组成部分,入侵检测系统(IDS)已经受到广泛的应用,对其进
随着金融自由化、资本市场国际化的步伐加快,国内金融市场面临着前所未有的竞争压力。除市场结构、业务范围和经营理念外,国内金融企业与国际先进金融企业的差距还在于没有一个
随着越来越多的台式机和工作组升级为快速以太网,网络骨干上的集中通信业务量明显增长,千兆以太网成为当前主流的组网技术.但是由于千兆以太网络技术正处于发展阶段,许多技术