论文部分内容阅读
互联网成为目前规模最大的信息载体,储藏着大量有价值的信息,利用诸如Google、Baidu等信息检索工具从互联网上获得目标信息,已经成为现代生活必不可少的组成部分。但随着互联网信息的不断增加,简单的信息检索已经难以满足实际需要,用户常常被淹没在过量的信息中。面对上述情况,以某个主题或结构为目标的、面向聚焦的信息抽取方法逐渐成为互联网应用研究的一个热点。信息抽取是信息检索技术的一个延伸,它可以将结构化信息从半结构或非结构信息中提取出来,Web信息抽取的应用可以提高用户对互联网信息的利用率。由于Web网页的海量性、动态性、异构性等特征,Web信息抽取技术面临着可移植性的挑战——针对某个网站或主题的信息抽取方法难以应用到其他网站或主题上。本文围绕Web信息抽取的可移植性,对面向聚焦的Web信息获取和信息抽取方法进行了研究。主要内容如下:(1)本文提出了基于URL结构过滤的非监督的聚焦爬虫(Unsupervised focused crawler based on URL structure filtering,UURLSF)。此方法基于URL结构分析,通过引入非监督的权重调节机制判断URL结构模式,可以仅用极少的样本实现大规模网页的跨网站获取,较基于内容的聚焦爬虫提高了执行效率。通过实验对比了UURLSF与传统方法在准确率、收获率和效率方面的效果。(2)本文提出了基于视觉单位的Web信息抽取方法。此方法基于Web网页感知原理,将信息抽取分为视觉单位的识别和目标信息的抽取两部分。视觉单位的划分过程独立于HTML标签,提高了视觉单位识别的可扩展性。本文将该方法应用在新闻正文抽取中,实验结果表明此方法具有较好的效果。(3)本文提出了基于增量聚类的非模型的Web信息抽取方法。该方法面向以数据为驱动的非模型推理机制,分别提出了基于全局和局部稳定度的聚类有效评价方法、面向Web信息抽取应用的增量聚类算法,并将其方法应用在新闻正文抽取当中。跟传统的基于建模的信息抽取方法相比,此方法能随着样本数量的增加不断提高信息抽取效果。在互联网数据极为丰富的背景下,这一方法有着更好的适应性。