论文部分内容阅读
分装器已经越来越多地应用到Web信息抽取中,但是当Web页面出现新的待抽取属性并且页面结构发生变化时,目前并没有一个完善的分装器能根据这种情况而做出相应调整从而抽取出新的属性信息。文中根据待抽取属性自身结构和内容的特点,通过定义一系列规则和证据,提出了一种基于可信度分析发现Web页面新属性的方法,并建立了该方法的模型。通过在实际网站中选取网页对本方法进行了实验分析,取得了较好的效果,具有现实可行性。