基于主题的Web资源采集系统的设计与实现

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:wendy_83090905
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络信息时代的今天,信息量不断在Web上增长,如何获取高质量的信息已成了一个热门的话题。传统的搜索引擎虽然能快速的为用户检索出相关的网络资源,但是需要耗费巨大空间和时间的网页累积,并且缺乏多元化的结果组织.对于有某些特殊专题资源需求的机构来说,一个轻量级的,面向主题的’Web资源采集系统更为有用。目前搜索引擎研究的一个热点问题--主题搜索引擎,就是以构筑某一主题或学科领域的。Web信息资源库为目标,侧重于主题相关网页的获取,采取一定机制,滤出不相关的网页,只覆盖与特定主题相关的Web区域,因此它的爬行层次可以更深,爬行周期可以更短。在查询结果排序时,给予主题相关度高的网页更高的优先级,因此可以满足用户对获取信息资源的快速、准确和全面的要求。 本文研究如何在开源搜索引擎项目Nutch的基础上,采用StrutsMVC(模型-视图-控制器)框架和AJAX(异步JavaScript和XML)动态网页技术,设计一个具有良好用户界面的、能够实际应用的、面向主题的Web资源采集系统,实现按照用户定义的主题对Web资源进行采集和处理,以此构建一个专题资源库,并采用多种方式为用户提供所需的资源。本文首先简要介绍主题搜索引擎的发展现状,然后对Nutch进行介绍,随后详细讨论系统的总体设计,探讨如何利用MVC结构和AJAX技术构建稳定而灵活的系统架构,在后面的章节中将会详细讨论主题爬虫的爬行策略、中文分词、主题相关性判定和资源过滤等具体细节问题,并对该系统进行展示和评价,最后对本研究进行总结,并对下一步的研究做出展望。
其他文献
学者是科学研究的主体,科学研究的进步很大程度上由从事科学研究的学者决定。学者影响力评价是科研管理和评价的重要活动之一,是对学者在学术圈身份的良好鉴定。目前,对学者影响
恩格斯认为学科的研究对象是“最低级、最简单的形式”,毛泽东认为“对某一现象的领域所特有的某一种矛盾的研究,就构成某一门科学的对象”。笔者认为,人们对“最低级、最简
中国C2C电子商务近年来发展迅速,蕴含巨大的商业潜力。然而中国互联网信息中心(CNNIC)的统计报告显示,目前中国C2C电子商务交易的最大问题仍然是与诚信相关的产品质量、服务和
目的:观察联合消积止痛方与电生理刺激对中重度癌痛的临床疗效。方法:将165例中重度癌痛的患者随机分为治疗组(84例)与对照组(81例),对照组口服硫酸吗啡缓释片,治疗组在对照
期刊
1995年,拥有233年悠久历史的英国老牌银行--巴林银行因为李森一人的违规交易而轰然倒闭的案例让人们深切地感受到了操作风险对于金融机构的巨大破坏力。13年后,2008年年初爆出
学位
在网络经济的今天,经济活动全球化加速和组织网络化凸现,企业边界越来越模糊,同时,企业环境的动态竞争性和不确定性使得传统的战略管理思想不再适应。单个企业的资源实力和风
本文在对国内外国防科技信息服务体系宏观把握的基础上,针对军民融合式国防建设新模式的要求,立足国情和国防科技信息服务活动实践,着眼事业的长远发展,提出了军民融合式国防
学位
2010年12月11日至12日,由国家体育总局体育文化发展中心主办、香港德飞体育娱乐集团协办的2010中国国际体育文化与经济论坛在北京举办.来自政府管理机构、国内外知名体育企业
1976年10月,“四人帮”被逮捕,这一消息迅速传遍全国,它不仅预示着持续十年之久,给中国人民带来无穷灾难的“文化大革命”运动即将收场,更重要的是,对于读书人来说,文化出版业又将重