论文部分内容阅读
随着互联网的迅猛发展,Web已成为全球最大的信息源和知识库。而Web信息的主要载体-网页,除了表达主题的内容外,还有为了维持页面的链接关系而进行的导航设计或出于商业目的等进行的广告及修饰内容,这些对于以网页为数据进行处理的算法而言就是“噪音”。这给Web上基于网页内容的研究工作带来很多困难。这就需要研究对网页主题信息进行抽取的有效方法。
在Web信息抽取领域,国内外学者已经开展了大量的研究工作,对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,仍存在诸多难题。因此迫切希望能有一种方法进行非结构化数据的处理。
本文在前人研究的基础上,针对该领域存在的一些问题,提出了一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。在上述思想的基础上,本文结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,首先定位到包含主题信息的区域,然后过滤掉噪音信息。实验结果证明该方法不依赖于信息源,是一种自动、可靠和通用的方法。