Web信息获取技术的研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:cmfu2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与发展,信息获取已经从通过手工获取信息、通过计算机获取信息,发展到通过网络获取信息。如今的网页数以亿计,要在浩如烟海的网络世界寻找需要的信息,作为现代信息获取技术的主要应用—搜索引擎是必不可少的。论文研究的目的是希望通过对基于超链分析的采集策略进行研究,探索提高搜索引擎中网页采集器采集性能的方法。 网页采集器是一种能够自动从互联网上采集网页的软件,它决定着搜索引擎的数据是否丰富,信息是否能够得到及时更新。论文系统地介绍了搜索引擎中网页采集器的工作原理。Robot主要由HTTP下载模块、爬行策略控制器和URL解析器三个部分组成。在Robot系统实现中采用了非递归的构造方式,给出了队列状态转换关系、Robot的典型流程图和详细的算法思想,运用了数据库和多线程编程技术。 Robot软件的采集策略是指当Robot搜索到一个文档后,下一步应该转移到哪一个文档的方法问题,它决定着Robot软件的采集性能。论文讨论了IP地址采集策略、深度优先采集策略、广度优先采集策略、深度-广度结合采集策略四种基于有向图的遍历算法并分析了各自的优缺点。Web上的超链结构是一个非常丰富和重要的资源,它独立于网页的语言和内容。论文研究了基于超链分析的算法中的BackLink算法、HITS算法和PageRank算法的原理、实现和存在的问题,并提出了一种对PageRank的改进算法。基于超链分析的算法能够有效地提高Robot的采集性能,减少获取网页的重复性,并对垃圾网页有较好的过滤性。对分别采用BackLink算法和改进前后的PageRank算法作为采集策略的Robot的性能做了实验比较,通过实验验证了改进后的PageRank算法能够更加准确地判断网页的重要性,有效地提高Robot的爬行效率。
其他文献
目的 研究肠道病毒71型(EV71 )感染神经细胞的miRNA表达谱,探讨miRNA在病毒感染神经细胞中的可能作用。方法 建立EV71感染人神经母细胞瘤细胞(SH-SY5Y)模型,收集感染后48 h细胞。以Taqman低密度芯片检测miRNA表达谱,使用实时RT-PCR对芯片结果进行验证并在TargetScan和miRanda网站预测靶基因,采用GO和KEGG分析靶基因功能。结果 成功建立EV71
在现代,时尚的沟通是一个重要元素,也是人们传递其话语的关键部分。在日常生活中,我们使用几种不同的方式,从外界获取/访问信息进行交流。这种信息的主要来源是声音/语音,书
随着我国教育体系的不断改革完善,涌现出了越来越多的创新教学方法,其中微课教学方法,凭借自身的短小精悍、高效便捷等优势,受到了广大师生的喜爱.将此种教学方法运用到高中
期刊
在我国,严格的教育制度培养了大批的人才,然而由于这种教育制度造成了教育中的严重的两级分化.主要体现在优等生和后进生之间.也造成了教育者和教育机构一味追求升学率的不良
近些年来国家对教育事业的大力支持使得多媒体技术在新时期的教育领域中有了极为广泛的应用,而多媒体技术本身声行并茂的特点也极大程度上吸引了学生的学习兴趣,激发了学生的
期刊
美术课程是一门对学生发展具有重要促进作用的课程.美术教学因思维方式的独特性,想像力的丰富性,绘画、手工操作的实践性等决定着它的特殊地位.因此作为一门技能课,在课堂中
从静电的产生、集聚和放电入手,结合油库的特点,分析静电不同的产生途径,并从工艺、技术、管理三个方面提出了控制措施.
DNA methylation is known to play a crucial role in regulating plant development and or- gan or tissue differentiation. In this study, we as- sessed the extent a
随着我国教育理念的转变和教育改革的不断深入,高校的教学质量管理正经历着重大的变革。为了不断提高教师教学水平,反映学生对学校教学工作的要求,体现学生在教学工作中的主体地
本文同大家一起探讨如何了解零零后,如何教会学生自主学习、发现学生个性、激发学习兴趣、倡导团队学习、建立赛马机制、体验过程乐趣等方面,展望未来中学生良好的个性品质规