搜索引擎的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liuaxing1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,从海量的网络信息中获得我们想要的信息已经变得越来越难。而许多研究机构正竞相研究的搜索引擎技术则可以解决这个棘手的问题,它可以帮我们找到想要的信息。尽管现在的搜索引擎技术己经可以帮助人们在网上找寻信息,但它在准确度和速度方面仍然存在不少问题。为了更好的解决这些问题,研究和分析搜索引擎的原理并不断改进其相关的算法是必要的。本文主要关注搜索引擎的理论研究和技术分析。通过对搜索引擎的发展和研究现状的介绍,本文指出了当今搜索引擎的一些问题和不足,并对未来的搜索引擎作了预测。本文详细地描述搜索引擎运行所需的关键技术,包括信息的采集策略,中文分词技术和页面评分算法。通过比较不同的算法,分析其利弊,解释不同应用中使用不同算法的原因。本文还对搜索引擎的索引结构作了细致的分析,尤其是索引数据的存放结构。在文章的最后是一个搜索引擎的实现,包括了完整的蜘蛛程序,索引系统和中文分词算法。系统采用分布式的部署方式,结合开源的dotlucene来完成网络信息的采集和索引工作。虽然这个系统只是一个模型程序,但它却可以作为一个不错的基础程序来进行扩展。尤其是索引和搜索程序部分,基本可以作为中小型网站的站内搜索系统使用。
其他文献
年前,商务部进出口公平贸易局召开未漂白牛皮箱纸板反倾销案被调查产品范围听证会。国务院关税税则委员会、海关总署、部内相关司局、美国政府及协会代表、国内申请企业及其
随着课程改革进程的推进,培养学生能力成为了课改的主要实现目的之一。本文将学生能力培养作为研究的出发点,在论述高中物理高效课堂构建的基础上,结合高中物理实际课堂案例提出
对于企业而言,技术创新的速度和强度已经成为衡量其业绩、竞争力和发展潜力的关键因素,技术创新为企业带来前所未有的投资机会,然而,这些投资机会通常伴随着技术本身的不确定性、
本文利用上下解方法讨论下面P(x)-Laplacian方程边值问题解得存在性: {-△P(x)u=-div(|▽u|p(x)-2▽u)=f(x,u) x∈Ω, u=0 x∈аΩ
[目的]探讨小麦幼苗MAP65体外对微管聚合的影响。[方法]以“临优2018”小麦幼苗为材料,通过免疫印迹实验鉴定小麦幼苗中微管结合蛋白MAP65的存在,并利用紫外吸收法和SDS-聚丙
为了避免储存以及隐藏的额外运转带来的高费用,比如由于等待、传递、额外劳动力、重加工以及订单改变等引起的效益损失,生产商不仅考虑延误带来的惩罚还必须顾及提前完工付出的
《全日制义务教育语文课程标准》十分强调学生的课外阅读,重视语言积累,对学生的阅读量还作了明确的规定。作为小学语文教师,我们在阅读教学中应该为学生做些什么呢?我觉得至
偏微分方程中解的奇异性来源于物理学和几何学中的很多实际问题。因此对方程解的奇异性研究,受到国内外学者的高度重视。目前,对解的奇异性研究大部分都在经典的Lebesgue和Sobo
趋化模型是描述细胞或生物体随外界化学物质的浓度变化而移动的模型,经理期权模型是分析经理人实施经理期权最佳策略的模型。这两类模型对人们认识外在现象,指导理性行动有很大
针对多路多段智能温度控制器的控制和设置的参数较多、人机交互操作较为繁杂等问题,提出以Atmega128单片机作为控制核心,由键盘和LCD 19264显示器等组成的人机界面系统,该界