论文部分内容阅读
随着人类社会信息化程度的不断提高,越来越多的数据已通过互联网进行分享。在这个庞大的数据集中,如何获取所需的重要信息是一个难题。这其中涉及两个核心问题:关键网页的获取和网页内结构化信息的抽取。现有的搜索引擎是一种针对互联网的信息检索工具,但其通用性决定了它必须平等地处理每一个网页,因此并不适用于一些特定领域的信息获取。网络上有相当一部分文档是无结构或半结构的,而传统的信息抽取领域一般基于结构化的文本文档。因此,如何从网页中抽取出其中重要的结构化信息,成了近年来研究的热点之一。这就推动了一个研究方向——网页信息抽取。本文研究了关键网页的获取及其结构化信息的提取方法。首先,论文分析了传统链接分析方法PageRank和HITS的优缺点,并选择HITS算法作为获取关键网页的基本方法。在实验中发现:传统的HITS算法具有忽视新页面和易受“垃圾链接”(Spam Link)影响的缺点,并不适用于实际应用,特别是新闻类的时效型网页。前人的研究已经针对“垃圾链接”提出了一种过滤方案,因此论文在其基础上加入了时间因素等改进措施,进一步完善了HITS算法,提出了TimeWeightedHits算法。经实验证明,TimeWeightedHits算法能有效地过滤无用网页,并能筛选出时效性较高的关键网页。其次,为了从这些网页中提取重要的结构化信息,本文提出了一种利用HTML标签显示位置信息的网页信息抽取方法。通过模拟浏览器的渲染工作来获取HTML文档上每个HTML标签在浏览器屏幕上的显示位置,以便提取这些标签的位置特征。并将TimeWeightedHits算法获取的部分关键网页作为训练样本集,由支持向量机算法生成分类模型,以此筛选出在测试网页重要信息区域内的HTML标签。经实验证明,与另一个基于统计的抽取方法相比,提高了准确率。并且由于采用了半自动化的训练样本标注方法,减少了训练时人工介入的工作量。