面向论坛页面的增量搜集技术研究

被引量 : 0次 | 上传用户:xpzcz1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络论坛是用户创建和讨论话题的平台,每天都有数以百万的用户发表各种话题。论坛数据通常包含大量高价值的知识和信息,已经成为重要的数据源。有些商业搜索引擎利用论坛数据来改善搜索结果的质量,还有些研究试图从论坛数据中挖掘有用的信息。无论何种web应用,最基本的步骤是从各种论坛站点中抓取数据,建立本地网页库,并维持对本地网页库的增量搜集。增量搜集技术的核心理论依据是网页的变化规律和以此为基础的最优化调度策略。论坛站点有一些不同于通常站点的特征:结构复杂且存在许多重复链接;较长的帖子分布在多个页面上,链接深度大;论坛的内容变化更加频繁而且内容增量式更新。传统增量搜集技术以单个页面作为基本调度单位,研究的是单个页面的变化规律,并不适于对论坛数据进行增量搜集。本文主要研究论坛的增量搜集问题,主要贡献有以下几点:1.在论坛中属于同一主题的信息通常分布在多个页面上,本文摒弃传统增量搜集技术中以单个页面为增量搜集的基本单位的做法,将属于同一信息的页面集合作为增量搜集的基本单位。页面集合主要有两种类型:属于同一版块的页面集合和属于同一帖子的页面集合。2.通过对论坛结构的观察和对版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。策略主要包含两种算法:11.基于版块的增量抓取算法:在大多数论坛中,版块页面即帖子列表页中的帖子是按照最后回复时间进行排序列表,即新发布的帖子或者有新回复的帖子会排列在帖子列表的前部。增量抓取算法利用MDR自动抽取算法,抽取列表页中的帖子链接和最后回复时间,然后判断是否为新发布帖子或者有新回复的帖子。2).基于版块的增量调度算法:通过对版块页面集合变化规律的统计分析,发现不同的版块内容变化频率相差很大,并且版块的变化频率与当天的局部时间相关,具有局部时间规律。算法根据变化频率为不同的版块赋予不同的权重,然后根据权重分配版块的抓取次数,同时根据版块变化的局部时间规律,确定每次的抓取时间点。实验结果表明本策略的带宽利用率为1,能够保证对发生变化的帖子的覆盖率接近百分之百,同时能够大幅减小系统总延迟,与平均调度方法相比系统总延迟最高可减小42%。
其他文献
回顾了北京水价调整历程,分析了北京市水价改革推动力及承受能力,指出水资源短缺、收入提高、南水北调工程的即将实现和既定的相关政策是北京水价改革的重要推动力,提出了水
针对大伙房水库输水工程深埋长大隧洞 TBM 施工特点.研究确定了主洞连续皮带机加支洞固定皮带机的出渣方案。实践表明,该出渣系统保证了 TBM 掘进机在工程施工中的高速掘进和
农民专业合作社经过多年的发展已经取得了很大的成绩,然而在家庭农场兴起的背景下却受到了一定程度的冲击,如何推动合作社实现转型升级,构建一个以合作社为核心的农业产业集
简要介绍了ARM体系及其特点,详细分析了ARM的流水技术、Cache技术、低功耗技术、代码压缩技术等,介绍了AMBA总线,给出了基于ARM和AMBA总线的片上系统的模型。
本文以变位齿轮设计中必须满足的质量要求作为目标函数,以须满足的基本条件作为约束条件,论述采用优化方法选择变位系数的具体步骤。
本文根据紫竹院公园二十几年来五色草花坛的制作经验,报告了大型五色草立体花坛制作技术,从施工前的准备、材料的选择、骨架制作、基质准备、营养土的填充及绑扎等方面详细介
本文结合人教版高中历史必修1中两幅插图,分析了查理大帝和拿破仑加冕之间的异同。
新疆青河县戈壁滩铁矿资源分布面积广,埋藏浅,开采简单,对该铁矿石进行了选矿实验室探索性试验研究,了解了该矿石的可选性及磁性矿物的回收方法和最佳工艺流程。试验表明,含
工作记忆是一种对信息进行暂时加工和贮存的容量有限的记忆系统(Baddeley,1992),它对个体的数学、言语理解与阅读、问题解决等高级认知功能都有重要的作用(陈英和,王明怡,2005)。大量的研究表明,工作记忆可以在一定程度上解释早期数学学习的个体差异,也可以预测后来的数学水平(Prebler AL,2013;Frisovan den Bos,Kroesbergen,&van Luit,
胶凝砂砾石材料是一种全新的环保型筑坝材料,关于其冻融问题的研究目前较少.根据水泥基材料的冻融损伤规律,按照等应变假设,建立基于动弹性模量的胶凝砂砾石冻融损伤度模型,