论文部分内容阅读
目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取,但是这些方法只考虑到了HTML的统计特点,没有考虑标题与正文信息之间的关系。本文提出一种基于相似度的网页标题抽取方法,充分利用了网页标题与正文信息之间的关系,通过计算两两“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。
实验结果表明,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力。