基于教育领域的垂直搜索引擎的研究与设计

来源 :兰州交通大学 | 被引量 : 2次 | 上传用户:fayo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的急速发展,网上的信息资源也呈现出爆炸式增长,这种信息的增长体现在互联网的各个领域,尤其是在教育领域。互联网为广大网民提供了丰富的网上学习资源以及教学资源。我们可以很方便的对这些资源进行访问和下载,但是,如何准确即时的找到自己所需要的教育资源也成为当今社会所面临的一个重要问题。传统的搜索引擎查询结果数量巨大,用户很难在其中找到自己所需要的专业性很强的资源。随着垂直搜索引擎的出现,这种情况得到了较大的改善。垂直搜索引擎是相对通用搜索引擎的查询不准确、深度不够等局限性提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。本文在研究了大量的搜索引擎技术的情况下,采用Lucene作为底层包,开发出了一个基于教育领域的垂直搜索引擎,论文首先对垂直搜索引擎的产生背景及国内外的发展状况作了简单的介绍,详细阐述了垂直搜索引擎的主要组成部分,包括主题爬虫、网页资源预处理、中文分词等。并且对Lucene核心模块进行了介绍,包括索引模块和检索模块。然后,通过对搜索引擎关键技术的研究,分析并设计了垂直搜索引擎的系统结构及实现框图。论文的核心内容主要是对主题爬虫进行了研究,现有的主题爬虫算法较著名的是Fish-search和Shark-search算法。通过对其优缺点的分析研究,改进了爬虫算法。并实现了基于Fish-search算法改进的爬虫算法,和基于VSM主题匹配的算法,提高了爬取的效率同时也提高了抓取网页的主题相关性。将抓取的网页进行除噪预处理,来获得网页的文本内容论文最后开发出了基于教育领域的垂直搜索引擎。利用Lucene主要实现了索引模块和检索模块,创建索引文件的过程中采用了一种新的索引方法,即只对关键词和标题内容进行索引。经过实验验证,这种创建索引的方法,能够在很大程度上降低索引文件的大小并且提高了检索的效率。
其他文献
在气候变暖和草地退化的影响下,草地蝗灾给草原生态系统、人民的生产和生活均构成了严重威胁,因此,准确预测草地蝗虫的发生和扩散、提出有效的防控措施十分必要和重要。   本
将EPON引入到工业现场计算机控制系统中,在控制计算机与现场设备智能节点之间通信采用以太网协议,通道介质采用光纤,不但可以实现远程实时控制,简化多层计算机控制系统之间的通信
学位
培养阅读理解能力是中学英语教学的重点之一,要求教师精心指导,同时学生要勤奋练习,只有这样,才能逐渐提高阅读理解能力。
辽宁全数字地面微波系统采用NEC 7000IP全数字IP微波系统,7000IP采用了最新技术,如高调制方式,8个系统汇聚后达到1Gbps以上的传输容量,另外还支持两个10Gbps接口,该系统在不
根据当前社会的发展情况,能够看出信息时代成为了社会发展的代名词,各类数据充斥着人们的生活与工作.由于数据量逐步庞大,数据类型也会更加丰富,数据来源更加广泛,传统的数据
目的:探索记忆相关基因及阿片受体基因(DRD2,BDNF,OPRM1,OPRD1,OPRK1)与海洛因成癮的遗传关联性,同时探索这5个基因的27个多态性位点与海洛因成瘾者初吸状态(首吸原因,首吸感
中波发射台是广播电视部门无线覆盖的重要组成部分,在进一步扩大快速传播范围,提高广播整体质量方面发挥着关键作用.从最初的新方案制定和选址到后续的规划和建造,它都需要进
学位
本文对Ad hoc网络路由算法研究及其系统通信协议栈的实现进行了研究。文章总结分析了现有的典型Adhoc路由协议,并在NS-2中搭建了Adhoc网络模拟环境,对最具代表性的四种Adhoc路