基于TSE的特定领域搜索引擎研究及实现

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:lixiaojin1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎(Search Engine)是随着Web信息的迅速增加,在近些年才逐渐发展起来的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用。目前搜索引擎已经成了人们在浩如烟海的网络上寻找目的地的必要工具,它在人们的生活中扮演着越来越重要的作用。因而搜索引擎技术成为计算机工业界和学术界争相开发、研究的对象。面向领域的搜索引擎(又称垂直搜索引擎)是信息检索领域的一个重要研究课题。虽然该领域已经取得许多研究成果,但目前相应的系统应用和检索效果却并不乐观。鉴于目前在国内,基于历史学学科特定知识领域的信息检索少有所闻,所以本论文将对历史学科的搜索引擎系统进行深入的研究及实现。TSE(Tiny Search Engine)是基于北大天网为模型开发的一个在Linux环境下运行的小型搜索引擎。其源码开放,是北大网络实验室的闫宏飞老师专门为搜索引擎爱好者提供的学习产品。由于TSE是一个通用的搜索引擎系统,针对特定领域的问题搜索时,在准确性和效率方面都有一定的不足。本文在构建TSE的基础上将历史学的领域知识加入此系统,改善其分词和索引功能:(1)加入历史学科特定词库。(2)改进TSE的分词算法。(3)更改TSE爬取网页时相关参数的设置以便更适应于特定领域的网页搜集。为了测试改进后的系统的性能,我们利用东北师范大学理想信息技术研究院在历史学科方面的整合资源,建立了一个历史学测试集(大约200篇文档,50个问题及答案)。利用此测试集对TSE及改进后的系统进行测试并对结果进行了深入分析。改进后的系统性能是令人满意的。
其他文献
随着信息技术的发展,信息系统在各个领域得到广泛而深入的应用,应用系统的规模也越来越庞大。大型的综合系统不断出现,数字化校园系统就是一个庞大的综合信息系统,特别是近十年来
移动机器人是机器人学中的一个重要分支。早在60年代,就已经开始了关于移动机器人的研究。随着移动机器人技术的发展,机器人的应用已经越来越广泛。在移动机器人的发展历程中,人
互联网的快速普及给人们构筑起自由交互的平台,与此同时,也给了不法分子可乘之机。个别不法分子恶意伪造权威部门的公章、捏造盖有伪造公章的政府文件,并把这些文件利用网络
森林植被识别在遥感影像分割中具有重要地位。高分辨率遥感影像除了包含地物的光谱特征信息外,还提供了大量的空间纹理特征,因而应用高分辨率遥感影像处理森林植被和森林树种
描述逻辑是语义web的逻辑基础,只能处理客观,完全的知识,对于主观,不完全的知识就无能为力了。认知描述逻辑ALCK通过认知运算符来表达认知查询可以对不完全信息进行有效的处
软件应用领域的不断扩大以及软件规模与复杂性的不断增加,给软件测试提出了更高的要求。软件测试自动化是提高软件测试效率的有效手段。测试数据自动生成是软件测试自动化的
随着我国电信业的快速发展,网络基础设施和用户数量都已达到相当大的规模。如何有效地管理和充分利用这些资源已成为各电信运营商要面对的关键问题。eTOM(enhanced Telecom O
人类作为社会环境的主体,包含着丰富多样的交互行为信息,人体行为研究蕴藏着极其深刻的社会价值和应用价值。尤其,随着三维扫描技术的推广,人体三维模型的数量日益暴增,而且,
作为一种新型的分布式资源共享方式,网格技术有效地整合了分布的计算资源、存储资源和信息资源。网格互操作研究是为了解决异构网格系统由体系结构和接口等方面的差别所带来
随着计算机技术在过程工业控制领域中的应用,基于以太网、互联网和现场总线的监测系统越来越显得重要。但是众多的监测系统由于没有统一的标准,各自为政,造成系统的开发雷同,