【摘 要】
:
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很
【机 构】
:
福州大学数学与计算机科学学院,福建库易信息科技有限责任公司
论文部分内容阅读
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。
其他文献
在初中化学教学中,创设问题情景是设计教学过程的重要内容之一。科学合理地创设情景对教学过程起引导、定向、调节和控制的作用,能够激发和促进学生的情感活动、认知活动和实
本文针对技校学生英语学习的现状,探讨情景教学法在技校英语课堂教学中的基本运用,结合创设生活情景、实物情景、表演情景、多媒体情景和游戏情景的实例,说明情景教学的实际效果
目的探讨在组织和细胞水平上Snail的表达与肾小管上皮-间质转化(epithelial-mesenchymal transition,EMT)及肾小管间质纤维化(tubulointerstitial fibrosis,TIF)的关系;观察转染Snail
黑色岩系及黑色岩系型矿床的找矿是当前地质学界研究的热点之一。本文在资料收集与野外地质调查的基础上,全面分析了云南省寒武系黑色岩系的分布与特征,系统研究了云南省寒武
椎间盘退变动物模型用于研究椎间盘退变机制和检测介入治疗手段的有效性.该文综述了腰椎间盘退变研究常用的几种动物实验模型的制作方法和原理,分析各种模型的优缺点及其与临
为了加强一次性医疗耗材的采购、验货、储存、发放的管理,消除一切不利的负面影响,为临床科室提供质优价廉的医用耗材,实行采供一体化管理,医用耗材质量得到了保证,杜绝了仓
本文主要综述了近年来利用电沉积技术制备纳米晶材料的研究现状和一些方法,如直流电沉积,脉冲电沉积,以及复合电沉积和喷射式电沉积技术。同时,对一些电沉积技术所制备的新型
随着大容量冲击负荷的不断增加及分布越发广泛,冲击负荷对邻近电厂正常运行所造成的不利影响成为钢铁企业和电力行业共同关注的问题。以天津电网作为研究对象,采用基于实测数据
目的:分析新疆维吾尔族(维族)、汉族≥50岁人群血脂水平现状,了解其是否存在民族间的差异。方法:采用分层随机多级整群抽样的方法对居住在新疆有常住户口、年龄≥50岁的维族
体育运动是广大人民群众生活中不可或缺的重要组成部分,具有能够强身健体、提高合作与竞争意识、调控情绪和振奋民族精神等社会价值。以安徽农业大学为例,研究分析高校体育课