论文部分内容阅读
随着互联网的飞速发展,Web已经成为重要的信息发布平台。然而,Web网页中除了正文信息,还包含着导航、广告和版权信息等大量与网页主题无关的“噪音”信息。网页中的噪音信息会大大降低搜索引擎、新闻聚合等系统的效果,同时也为这些系统的存储造成了负担。因此,网页正文抽取问题具有重要的研究意义和应用价值。本文开展的研究工作如下:(1)提出了基于标签路径特征融合的在线Web新闻内容抽取方法CEPF。设计了标签路径特征系,并提出一种方法将标签路径系中的特征融合为一个新的特征TPF。相对于标签路径中的每个特征,TPF都具有更好的区分网页正文和噪音的能力。在特征融合阶段,一种基于谱聚类的特征选择方法被用来删除冗余的标签路径特征。CEPF利用基于标签路径编辑距离的高斯平滑方法更新TPF特征值,基于平滑后的TPF值和最大类间方差法自适应地从网页中抽取正文信息。CEPF方法是无监督的。实验结果表明,CEPF是一种准确、通用且与语言无关的的Web新闻内容抽取方法。(2)提出了基于长文本标签比的网页正文抽取方法CELTR,该方法从网页DOM树中抽取对应正文信息的子树。CELTR使用最大类间方差法自适应地为DOM树的每个子树计算长文本标签比(LTR)。在大多数情况下,对应网页正文的子树比对应网页噪音的子树具有更高的LTR值,但仍存在少数反常的情况,为此我们在LTR的基础上扩展出LTRS和RLTRS。CELTR利用LTR、LTRS和RLTRS三个特征通过对子树聚类的方法从网页中抽取正文。CELTR方法是无监督的。实验结果表明,CELTR是一种准确、通用且与语言无关的的网页正文抽取方法,且可以保留网页正文原有的结构。(3)设计并实现了一个面向领域主题的Web新闻动态聚合系统,并应用本文的CEPF和CELTR方法解决该系统中的网页正文抽取问题。并分析了网页正文抽取算法在实际应用中的优势与局限性。