基于CSS选择器的Web信息抽取的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lelerui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的兴起和移动互联网出现的普及,互联网已经逐渐成为人们获取信息的主要渠道。各类UGC(User Generated Content)网站的流行,使得互联网上产生了大量由用户产生的内容。但是随着Web数据的爆炸式增长,获取所需的Web信息变得更加困难,Web信息抽取技术的研究也随之展开。近年来,Web信息抽取的方法不断被提出,然而这些抽取方法在实现上各有侧重,在抽取的自动化程度和适用性等方面有很大的提升空间。本文研究并提出了一种基于CSS选择器的Web信息抽取方法,该方法在MDR算法的基础上,结合了CSS的相关特性,有更广泛的适用性。并结合较新的MVVM设计模式,以低耦合的方式实现了基于该方法Web信息抽取系统。抽取系统采用了用户标记的形式来获取数据记录的特征属性。这一方式相较与传统的基于DOM的Web信息抽取方法,在网页结构发生变化时,也能保证抽取的正确性和有效性。同时为了保证抽取的完备性,设计了基于CSS选择器的抽取方法和URL比较法相结合的相似页面URL获取方法。经过抽取实验表明,抽取系统对于多页面的Web信息抽取也有较好的抽取效果。基于MVVM设计模式开发的抽取系统有着更低的耦合性,这使得后续对抽取系统进行扩展成为可能。本文最后使用该抽取系统对亚马逊网站的商品评论信息进行抽取实验,证明了抽取方法和抽取系统设计的有效性。
其他文献
查询优化是DBMS设计和实现采用的一项重要技术,是影响数据库性能的关键因素。ORDBMS在继承关系数据库技术的基础上,增加了面向对象特性,可以满足GIS,CIMS,OIS等新兴领域多维
经济报道是媒体的重头戏。现实生活中,人们往往通过媒体的经济报道来关注经济现象,学习经济知识,解读经济发展。现在我们进入信息时代,受众信息来源增多,选择余地增大,对经济
本文试图对我国企业项目管理成熟度模型进行研究,首先将对国内外相关文献进行研究,回顾已有的项目管理成熟度模型,在此基础上,结合我国企业实际情况,从理论上构建反映中国企业项
生命是惟一的财富,那里有生命,那里便有希望.所以,呵护生命就是呵护财富;呵护生命就是呵护希望.我国《幼儿园教育指导纲要》指出“,幼儿园必须把保护幼儿的生命和促进幼儿的
函数与我们每个人的生活息息相关,在解决很多数学问题时几乎都要用到这一工具.函数的教学在于启发学生的思维,为数理化的学习打下坚实的基础,使学生在解决生活问题时建立起数
期刊
新课程强调,教学是教与学的互相结合,互相促进,是教与学的和谐.而课堂教学是实施教育的主要阵地,这就需要创建和谐的课堂.而课堂能否和谐发展,其重要的决定权还是在教师手中.
我国现阶段的小学教育教学管理存在很多不足,受到传统教学观念的影响较为严重,致使无法实现提升学生自主学习能力和增强学生综合素质的教学目标.尤其是在新的课程标准要求下,
本文主要说明了探究式教学方式融入到高中历史课堂当中的实施内容,阐述了探究式教学方式引进到高中历史课堂当中的重要意义,指出了一系列有效的探究式课堂教学手段,以提升学
古人云“授人以鱼,不如授之以渔”,新一轮课程改革也要求我们“教会学生学习,培养学生自主能力”,所以当我们面对天真烂漫、活泼可爱的孩子们还是少点埋怨、苛责,多在提高学