基于Hadoop的Web评论自动抽取方法研究

被引量 : 0次 | 上传用户:dafeizz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web评论信息现已成为Web信息中最重要的信息之一。它在现实生活中扮演着非常重要的角色,并且直接影响着Web用户上网的行为及习惯。近年来伴随着Web2.0和电子商务的迅速发展,Web用户评论信息量也随之呈井喷式的增长。然而,Web用户想要在海量的Web信息中快速查询有参考价值的Web用户评论信息已变得越来越困难了。为了应对Web信息爆炸带来的挑战,迫切需要一些自动化的Web信息抽取技术来帮助Web用户在海量的Web信息中迅速找到自己真正需要的信息。本文提出的基于Hadoop的Web评论自动抽取方法正是解决这个问题的一种方法。本文在查阅了国内外的已有的学术成果以及最新的研究发现的基础上,研究如何在海量规模的Web评论页面下确保Web评论信息抽取的高准确性和高效率性。研究的内容主要分两大部分:在第一部分中,本文在分析与总结Web信息抽取技术的现状和不足后,提出了一种基于Hadoop的Web评论自动抽取方法。该方法包含两大核心算法:基于Hadoop的Web评论记录抽取算法和基于Hadoop的Web评论内容抽取算法。基于Hadoop的Web评论记录算法首先自动识别Web评论页面中的评论记录区域,然后计算包含评论记录子树间的相似度来去除噪音信息,最后抽取评论记录。基于Hadoop的Web评论内容抽取算法可以自动识别评论记录子树下的评论内容区域,然后通过文本深度的方法形成抽取模板,最后抽取评论内容信息。基于Hadoop的Web评论自动抽取方法不需要样本训练,并且可用于绝大多数的Web评论页面。在第二部分中,本文在分析了典型Web页面信息抽取系统后,根据上一部分提出的方法设计并实现了基于Hadoop的Web评论自动抽取系统。该系统具有很强的自适应性,能处理多种不同类型Web评论页面结构的Web评论信息的自动抽取。本文在最后对所提出的方法和实现的系统分别进行了实验测试,实验结果表明本文所提出的抽取方法可以达到96%以上的准确度,同时所实现系统的性能良好并且可以获得较高的加速比。本文的工作为Web信息抽取的特定领域研究提供了一个新的思路,所提出的基于Hadoop的Web评论自动抽取方法具有一定的实用价值。
其他文献
随着人类对其遗产认识的不断进化,遗产概念无论是内涵还是外延,都在过去的二十年来突破了传统的认识范围。受到可持续发展和生态农业理念的直接影响,从21世纪初开始,农业文化
土工合成材料在水利工程中应用广泛,由于其良好的性能价格比以及和常规混凝土相同的施工方法,使聚丙烯纤维混凝土得到广泛应用。
<正> 各省、自治区、直辖市、计划单列市人民政府,国务院各部委、各直属机构,新疆生产建设兵团财务局:为规范政府收入分配行为,进一步扩大和培育内需,财政部会同有关部门对全
研究目的:探讨盐酸川芎嗪注射液离子导入联合复方血栓通胶囊对单纯型糖尿病视网膜病变患者的中医证候、视力及眼底情况的治疗作用,并通过与单独应用复方血栓通胶囊和单独应用
本文运用文献资料法、录像统计法、数理分析等方法,量化分析当今中国女子乒乓球队主力队员李晓霞、丁宁、郭跃、刘诗雯四名队员在近三年重要比赛的发抢段、接抢段、相持段所
目的:探讨开腹单纯穿孔修补术与胃大部切除术治疗胃十二指肠溃疡穿孔的临床疗效。方法:将民权县公费医疗医院2010年12月到2013年1月收治的166例胃十二指肠溃疡穿孔患者随机分
目的:通过对52例侵袭性肺部真菌感染(IPFIs)患儿的临床数据进行分析,从中提炼出有意义的临床特征,从而提高对本病的认识,为临床诊治思路提供依据与线索。方法:回顾性分析2010年8月~20
研究表明,性格优点作为一种积极的人格特质具有诸多适应功能,当个体面对生活中的压力情景时,能帮助其采取更为有效的应对策略。初一学生通常面临着学校适应的问题,如何通过培
军事连坐法是国民党在大陆时期军事法的重要组成,是一种针对作战时临阵退缩行为的严酷军刑法,其内容几经演变,形式日趋完备,而其效用却并未相应强化。总体来看,军事连坐法在
本文通过多维比较分析法,以帕累托改进理论和正义论为理论依据,通过对中国改革进程的阐述和分析得出改革进展缓慢的原因分析,另一方面通过对国外公职人员养老保险改革状况的对比