论文部分内容阅读
Web评论信息现已成为Web信息中最重要的信息之一。它在现实生活中扮演着非常重要的角色,并且直接影响着Web用户上网的行为及习惯。近年来伴随着Web2.0和电子商务的迅速发展,Web用户评论信息量也随之呈井喷式的增长。然而,Web用户想要在海量的Web信息中快速查询有参考价值的Web用户评论信息已变得越来越困难了。为了应对Web信息爆炸带来的挑战,迫切需要一些自动化的Web信息抽取技术来帮助Web用户在海量的Web信息中迅速找到自己真正需要的信息。本文提出的基于Hadoop的Web评论自动抽取方法正是解决这个问题的一种方法。本文在查阅了国内外的已有的学术成果以及最新的研究发现的基础上,研究如何在海量规模的Web评论页面下确保Web评论信息抽取的高准确性和高效率性。研究的内容主要分两大部分:在第一部分中,本文在分析与总结Web信息抽取技术的现状和不足后,提出了一种基于Hadoop的Web评论自动抽取方法。该方法包含两大核心算法:基于Hadoop的Web评论记录抽取算法和基于Hadoop的Web评论内容抽取算法。基于Hadoop的Web评论记录算法首先自动识别Web评论页面中的评论记录区域,然后计算包含评论记录子树间的相似度来去除噪音信息,最后抽取评论记录。基于Hadoop的Web评论内容抽取算法可以自动识别评论记录子树下的评论内容区域,然后通过文本深度的方法形成抽取模板,最后抽取评论内容信息。基于Hadoop的Web评论自动抽取方法不需要样本训练,并且可用于绝大多数的Web评论页面。在第二部分中,本文在分析了典型Web页面信息抽取系统后,根据上一部分提出的方法设计并实现了基于Hadoop的Web评论自动抽取系统。该系统具有很强的自适应性,能处理多种不同类型Web评论页面结构的Web评论信息的自动抽取。本文在最后对所提出的方法和实现的系统分别进行了实验测试,实验结果表明本文所提出的抽取方法可以达到96%以上的准确度,同时所实现系统的性能良好并且可以获得较高的加速比。本文的工作为Web信息抽取的特定领域研究提供了一个新的思路,所提出的基于Hadoop的Web评论自动抽取方法具有一定的实用价值。