基于网页信息自动提取的分布式爬虫系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yueyingz4l
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据爆发式增长,大数据时代到来,互联网每天产生难以计数且各式各样的数据。这些数据蕴含的信息具有巨大的研究价值和商业价值。学者及企业希望获取知识类、资讯类、政策法规类等文章型网页中有价值的信息,不仅要求数据量大、格式规范统一、时效性强,还希望获取信息的成本低、效率高。现实中网页结构各异且都包含大量与主题无关的网页噪声,如何从互联网蕴含的海量信息中以较高的效率、极快的速度获取有价值的结构化信息是一个值得研究的课题。本文选题来源于企业项目,研究文章型网页的信息自动提取算法,设计实现了基于网页信息自动提取算法的分布式网络爬虫系统,提高了信息获取的效率,具体如下:(1)针对现有网页信息提取算法提取精度不足、提取信息缺失和上下文信息利用较少的问题,提出了一种基于视觉块一致性和序列标注的文章型网页元数据提取算法。根据文章型网页的视觉特征对网页进行分块预处理,将网页节点划分为多个一致性视觉块;利用统计特征定位网页主体区域,过滤掉大量噪音信息;选择文本、视觉和词典特征作为特征集进行特征提取,利用条件随机场模型进行序列标注,提取标题、正文、作者、来源、发布时间、图像和附件等信息。最后对算法进行了实验和对比分析。(2)设计实现了基于网页信息提取算法的分布式爬虫系统。本文分析了企业需求并对系统进行了总体设计,将系统分为数据采集层、数据解析层、数据存储层、节点接入层和系统管理层。针对现有分布式爬虫存在的问题,引入网页信息自动提取算法代替人工编写解析脚本,提出了一种无中心的基于动态反馈的任务调度策略,提高了系统可靠性和抓取效率。接下来本文对系统各模块进行了设计与实现。最后,本文对系统进行了性能和功能测试。
其他文献
新课改下高中语文教学发生巨大变革,要求教师在关注学生智力提升的同时,更注重学生全面、个性化发展.加德纳多元智能理论打破传统“智力一元论”,关注学生间差异,注重个性发展,与我国当前教育改革理念不谋而合.本文从多元智能理论的内涵出发,以“文学阅读与写作”任务群为例,探寻多元智能理论指导下项目式任务群应该如何教学.
部编版高中语文教材创新单元组合方式,以“双线”的形式编排教材,力求在发展学生审美认识能力的同时,进行语文的工具性训练.本文以《祝福》为例,探讨如何以主线带动副线,发展学生对自然、人生、社会的认识能力,同时在过程中穿插语文知识、语文能力的训练,共同落实“立德树人”的教育目标.
2018年1月,“大学语文”被教育部确认为通识课程,课程身份在历史进程中被拆解、分裂,逐步形成了新时期大学语文的培养目标:重在提升学生的语文素养和人文素养.厘清通识课与专业课不同的人才培养方向和能力训练方向,紧扣学生日常生活和社会经历,从文本中提炼与之相应的人文话题,设计课堂教学方案,激发学生兴趣和热情,达致教学内容的完整性,是新时期大学语文的目标获得路径.
在产教融合视域下把握设计专业人才培养需求,了解专业实践教学体系建设情况,能够通过剖析体系建设问题明确体系建设方向.将学科竞赛当成载体建设设计专业实践教学体系,可以创新教学模式,在强化专业实践教学的同时,推动人才全面发展.本文从教学体系完善、培养基地建设等角度探索体系建设路径,能够充分体现学科竞赛融入设计专业实践教学的价值,通过改革专业教学落实人才培养要求.
教学评一致性是语文教学质量追求的保障,是以目标为核心的过程.目标设计是构建评价系统的重要环节.明确课程一致性的研究对教师的理论提升和教学实践都具有重要意义.本文将教学评一致性作为有效教学的基准,对学习目标融合度、教学目标适切性进行分析,并结合课程标准、核心素养和评价改革对高中语文古诗文课堂教学一致性进行研究.
任何一篇课文的教学都需要立足于文本本身.文本是关键,是教学的可靠抓手.但从目前状况来看,对于文学类文本的解读处于遍地开花的状态,同时形成了较权威的文本解读理论体系,对于实用类文本的解读则相对较少.本文尝试着划分和细读不同实用类文本,引起对实用类文本细读的重视及实用类文本阅读的思考.
党的十九大以来,创新创业发展已经成为经济发展方式转变的至关重要的推动力,高等学校肩负着培养高素质创新型人才,推动国家经济发展转变的重要使命.以培养创新创业人才为目的 ,高校构建和区域经济深度融合、协同发展及良性互动的体系,对于促进地方高校的内涵式发展和应用型转变,以及提升创新创业教育水平具有非常重要的现实意义.本文结合阜阳市产业、工业发展的目标和路径,就地方高校如何融入区域经济发展战略决策,构建适应地方发展急需的创新型、高素质、应用型创新创业人才培养体系,提出具有现实意义和参考性的对策建议.
随着互联网的光速发展,最近几年,用户数据的频繁泄漏导致的用户的隐私安全愈发受到公众的关注,应用厂商开始倾向于使用加密流量来给用户带来安全感。但是由于加密流量具有隐蔽性的特点,也会让基于传统明文流量的分类方法效果变得很差,同时会给网络自动化运维、网络安全管理以及网络质量保障服务等相关网络服务带来了很大的障碍,加密流量的分类已经成为网络安全和管理急需解决的问题。最近几年来,迁移学习在自然语言处理、计算
近些年来,通信技术正在以飞快的速度进行革新,无线通信摆脱了有线的束缚,但是其开放的通信媒介给无线通信的安全带来了巨大的隐患。因此,无线通信中的信息安全问题已日益成为人们关注的一个重要问题,也成为学术界和工业界的一个热点研究问题。信息安全的传统方法是各种基于密钥的加密及认证技术。对无线通信来说,由于合法接收者和窃听者之间的物理信道天然存在差异性,因此可以利用这种差异性来实现物理层的安全传输。近年来学
根据教育部新制订的《大学英语教学指南》,对大学英语教学及课程设置等八个方面提出科学而颇具操作性的指导意见.根据《指南》要求,从大学英语教材编写的角度,对如何兼顾好统一性与多样性、自主性与联合性进行实操性探讨,提出未来新教材编写建议.