面向Web论坛的网络信息获取技术及系统实现

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:joshua0138
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术。实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度。
其他文献
搜爆是公安机关处置涉爆案件现场的第一道工序,带犬民警在搜爆过程中面临着诸多潜在危险。犯罪分子制作爆炸装置技能不断提升,而带犬民警自身相关爆炸知识结构与搜爆防护器材
利用浙江省自动站资料、NCEP1°×1°的逐6 h资料和多普勒雷达资料对2018年3月4日的一次典型飑线过程进行分析,主要分析此次飑线引起的大风、短时强降水等强对流
煤层气井压裂曲线提供了煤储层中压裂缝扩展的动态信息,压裂曲线的形态特征可在一定程度上反映出煤储层的压裂效果。基于柿庄区块单层压裂3号煤层的45口煤层气井的压裂资料,
在中国共产党的历次全国代表大会中,七大的筹备时间是最长的。早在抗战爆发之初,中国共产党就提出要准备召开七大,但1945年4月七大正式召开时,抗战已临近胜利,其筹备过程几乎与八
首先梳理了对时尚产生动力的解读,认为对时尚产生的解释大致经历了从阶级区分到集体选择的变迁,从时尚的发展历程来看,集体选择相较于前者也许更符合目前阶段时尚的特征。其
革菌属干巴菌是一类具有重要经济和营养价值的名贵野生食用菌。从干巴菌分类学研究、生活习性、食药用价值、原生境促繁等方面的研究进展进行简要综述,旨在为干巴菌的后续研究
本文对俄罗期多层次高等师范教育的基本理念,高等师范教育的国家标准概况作了简要评述,指出俄罗期现今师范教育结构和课程改革的特征,为我国教师培养模式的探索提供借鉴。
唐君毅、牟宗三从朱熹理气论的角度对于《仁说》所谓“天地以生物为心者也,而人物之生又各得夫天地之心以为心者也”作出了不同的诠释。唐君毅认为,朱熹所谓“天地之心”,统
授课对象:九年级学生指导专家:刘兆义(教育部《英语课程标准》研制组核心成员,翼课网英语学科首席专家)一、课例背景2017年4月20日,笔者参加了由黑龙江省大庆市教师进修学院主办
千年发展目标的实现与世界的和平与发展紧密相连,其卫生领域的相关目标指导世界卫生取得了巨大进展。中国基本完成了卫生领域的千年发展目标,在妇女儿童健康、艾滋病、疟疾和