论文部分内容阅读
本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同,对多项相关的研究做了概要性的叙述,介绍了这些研究的思想及其优、缺点。对于目标记录所在区域的确定,本文使用基于启发式的方法来解决,介绍了三种针对这一问题的启发式,分别从节点扇出、子树大小增量和子树标记数三个方面对网页进行考察,并且将它们结合起来使用以取得更好的效果。对于记录的抽取,针对现有方法对噪声敏感的问题,本文提出了基于记录子树的最大相似度发现记录模式的思想,称为最大相似子树方法,将相似度超过一定阈值的子树识别为同类记录。这种方法在同类记录的表现模式有一定差异的情况下依然能够正确识别记录。对于记录属性的抽取,本文将隐马尔可夫模型用于网页信息抽取问题,介绍了隐马尔可夫模型的基本结构以及如何将其应用到信息抽取领域。针对本文的特定问题,确定了隐马尔可夫模型的结构,并使用训练样本学习了模型的参数。