论文部分内容阅读
万维网自20世纪90年代初有了第一个真正意义上的网页之后,其信息量与日俱增,速度发展之快,是始料未及的。人们庆幸摆脱了信息匮乏的困境之余,又因为万维网的海量性、复杂性、分布性以及非结构性而陷入了“信息过量”的境地。万维网的这些特性,使得人们在利用它来搜寻和获取有用的信息时候常常不能如意。
面对这样的问题,人们一直在探寻各种各样的解决方法。这些解决方法大致可以分为两个途径:
一是从万维网的信息表示出发,通过研究和制定有效的万维网表示规范来促进信息的规范表示,从而方便人们在此基础上开发有效的信息捡索等服务。如开发XML语言让计算机可以识别和自动处理网页文档包含的信息,推广资源描述框架(ResourceDescriptionFramework),以便提供一个通用的万维网资源描述规范,实现知识表示和共享的Ontology技术,等等。
另外可以从研究万维网的信息特性出发,通过开发特有的搜索技术和分析处理技术来为人们提供有针对性的、高效的信息获取服务。例如,人们熟知的搜索引擎,万维网信息挖掘等。
以上的解决方法和技术都各有优缺点。现有的许多通用搜索引擎可以快速地为人们提供感兴趣的网页和文档,但缺少对网页的语义分析,只能简单地通过全文匹配和一些超链分析方法等提供一组相关的页面,人们还要通过浏览这些网页来获得进一步的信息,经常出现与原意不符的情况。而先进的信息表示技术如XML等目前还未形成一定的应用广度(仍以HTML为主),还需要人们的大力推广。此外,万维网挖掘技术包含的范围也很大,不同技术在解决特定问题上有奇效,但缺乏通用性,使用范围较小。
分析和总结了目前万维网的信息表示方式及主要的信息获取方式后,我们根据用户利用万维网获取信息的一般过程,提出了自己的面向主题的万维网搜索系统模型。系统根据用户对信息的特定需求,建立了面向主题的搜索机制,其核心部分就是面向主题的万维网信息挖掘(WebMining)。万维网信息挖掘是一个很大的研究领域,开展的相关工作不少,但基于主题的工作还不多。作为其中一个重要的分支——万维网内容挖掘(WebContentMining),其研究成果直接关系到系统中搜索结果和智能查询结果的好坏,尤其是在面向主题的基础上,如何系统地运用多种技术在半结构化的HTML网页中获取内容信息是我们面临的一个挑战。
我们将上述两种途径结合起来,把信息表示中的新兴技术——Ontology与万维网内容挖掘相结合,并对一些方法进行了改进,运用于系统中,获得了较好的效果。具体的工作主要由如下相互关联的三大部分组成。
基于Ontology的网页分类。该部分的工作就是在Ontology定义的基础上,采用TFIDF和NB方法对相关主题下的网页进行了性质上的分类,我们根据主题资源的特点,采用EM方法对原本表现普通的分类算法进行了改进,并根据HTML网页的特点提出了混合文本分类的策略,从而提高了对主题资源网页分类的正确率。
基于Ontology的网页关系识别。在该部分工作中,我们同样利用了Ontology中的关系实例,在分类的基础上利用规则对网页之间的关系进行了自动识别。我们借鉴了一些机器学习的方法,根据主题资源的特点,提出了自行设计的过程实现了规则的自动生成,同时进行了一些优化工作。最后将结果应用到了系统中。
Web文档的信息抽取。这部分的工作在回顾了信息抽取方面的研究工作后,在系统中实现了基于HTML的网页元数据提取,具有较好的通用性。系统实现了一个小型的元数据抽取系统——MEDES,并在获取的元数据基础上,实现了基于元数据的查询,进一步优化了搜索效果。
以上工作的成果都在我们的系统中得到了具体应用和实现,并且效果良好。但是这些工作只是一个起步,还有很多工作需要深入开展下去,如网页内部关系识别,信息抽取规则的自动规约等,三方面知识的综合等。我们相信,这些工作的深入开展,将会使系统在知识获取和利用方面的研究更加完善,也更有应用价值。