基于Web挖掘的主题搜索引擎网页抓取策略的研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:Q672855312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网的快速发展带动了时代的变迁。Web资源中蕴含着大量有价值的信息,作为一种新的资源,已经变得越来越重要。Web挖掘研究的主要任务就是如何从这么多的Web信息中高效地获取所需知识。然而,传统的通用搜索引擎对整个互联网缺乏针对性,搜索会造成大量无关的链接和信息,使得所得的结果效用低下。在这种情况下,面向特定领域的主题搜索引擎便应运而生,它很好地解决了通用搜索引擎存在的弊端,其核心就是主题网页抓取技术。对于该技术的研究已经成为了当前的热点和发展趋势。本文首先简单介绍了Web挖掘技术和搜索引擎技术的研究背景及国内外发展现状,分析了两者之间存在的共同点,并为这两者技术上的相互结合做了一定的可行性分析。然后介绍了主题搜索引擎的发展状况和重要作用,并主要以主题搜索引擎的主题网页抓取策略作为研究内容,把提高主题网页抓取的查全率和查准率作为出发点,详细分析了现有的主题网页抓取方法及其优缺点。接着从主题搜索爬虫的Best-First搜索算法中所存在的缺点着手,结合非贪婪策略等方法对算法进行了进一步优化,并用实验证明了新算法的优异性;最后设计并实现了一个主题Web挖掘系统原型,给出主题网络爬虫类的构成,设定的队列,数据库的设计等,并对整个系统性能进行了测试。
其他文献
“了解更多赛事信息、新闻或查询栏目情况,请您拨打体育频道服务热线号码百事通118114”——这是最近在中央电视台体育频道常能听到的主持人的播报,在各个新闻、栏目、赛事中
期刊
期刊
2008年12月1日起至2009年2月28日,勒布朗体验中心将在北京798艺术区的Nike706创意空间对球迷开放。这场展览全方位记录展现当今NBA巨星勒布朗·詹姆斯篮球智慧与技能,融汇了
摘 要:当前,中国科幻文学在世界文化视野中得到越来越多的关注,但中国科幻小说学术研究远远落后于其他文学形式的研究。本文梳理2010年-2017年间8年的硕博论文中以中国科幻小说为研究对象的硕博论文数量与占比,以及与当前在国内外知名科幻期刊发表的中国科幻小说数量对比情况,浅析中国科幻小说学术研究的必要性。  关键词:中国;科幻小说;研究;硕博论文  作者简介:周兴阳(1992-),女,汉,安徽合肥人
期刊
2006年,武警龙岩支队被福建总队评为“新闻工作先进单位”。这一年,全支队被军内外媒体刊用稿件546篇。其中报刊类新闻163篇,电视类新闻97条,网络新闻286篇。而取得这些成绩,
随着社会整体经济水平不断提升,生活条件不断改善与医疗技术不断提高,人们对职业性生理、心理健康的关注和重视程度也随之提高。学术界和医学界通过探索、识别和干预作业过程中的疲劳风险因素,从而降低职业疲劳对作业者、企业和社会带来的负面影响。然而,受区域经济水平、地理位置、文化程度和社会地位等诸多因素的影响,人工搬运作业在生产生活中仍然非常常见;并且该作业往往具有作业时间长、负荷重、环境差等特点,对搬运行业
县级广电是我国最基层的新闻宣传机构,它把党和政府的声音传遍神州大地,输入千家万户;广大基层群众通过县级广电这条渠道,了解国家大事,获取相关信息。 The county-level ra
期刊