基于爬虫技术的小型垂直搜索引擎的设计与实现

来源 :首都经济贸易大学 | 被引量 : 0次 | 上传用户:baobeicucu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代彻底改变了我们的生活,从最开始的看报纸、看电视才能了解的新闻,而如今只需要打开手机便可知道所有信息,生活方式的改变,使得网络已经成为我们不可或缺的东西。但是现如今的网上资源越来越多,人们找到想要的信息获取愈发困难,所以一个合适的搜索引擎可以给我们带来很多方便。使用搜索引擎时,用户输入一些关键字进行搜索,搜索引擎就会返回给用户大量的跟这个关键字相关的信息,在这个搜索过程中,重中之重便是爬虫,爬虫可以快速准确的从网上获取到想要的信息。常见的搜索引擎就是使用了爬虫从互联网的海量数据中爬取出我们想用的信息,并且用最快的速度返回给用户。另外,股票信息现在是我们生活中最热门的词汇之一,现如今的股民也越来越多,证券公司现如今也可以网上开户了,大部分股民都想要获得大量的股票信息,但是每个股票网站都有一个自己独特的模块,用户想要获取信息就要去不同的网站。所以本系统把每个网站最具网站特色的文章爬取下来,让用户能更好的搜索出大量信息。主要的内容如下:首先,本文说明了垂直搜索引擎的定义、原理、以及垂直搜索引擎的特点,并且介绍网络爬虫工程中一些关键技术,解决爬虫问题的方法等,以及一些后续需要用到的技术等,比如分词技术、BM25算法。其次,本文主要使用Scrapy架构来进行爬虫开发,对于Scrapy架构解决不了的爬虫问题,本文会用作者所知道的最方便最易懂的方法来实现最复杂的动态界面爬虫,例如有Ajex动态加密等。自定义策略应对网站的反爬措施,通过Selenium和Chrome的开发者工具互补解决了爬取动态网页数据的问题;在想要制定位置的信息是,本文通过正则表达式、XPath选择器来过滤掉无用的信息。然后提出爬虫过程中遇到的问题,并且给出解决方案。接着,按照搜索引擎的开发流程详细描述本文是怎么实现搜索引擎最关键的索引和检索的,以及使用的分词和算法。最后,对本系统进行测试,例如测试分词、爬虫结果和搜索的结果等。
其他文献
现代系统正在往复杂方向发展,一旦发生故障会造成巨大的损失,因此人们迫切的需要可靠的系统.“容错”原是计算机系统设计技术中的一个概念,容错是容忍故障的简称.在一个系统中,更多需要考虑的是针对执行器和传感器的容错控制.一个系统能够容错的必要条件是系统中存在着冗余,即对执行器的容错需要有执行驱动冗余、对传感器的容错则需要存在传感测量冗余.容错控制系统设计的关键是如何使用这些冗余来达到容错目的.研究容错控
复杂曲面零件广泛应用在航空航天、运输、能源等重要领域。机器人具有智能化、操作空间大、柔性好等优势,因此采用机器人实现复杂曲面零件的加工成为了目前的研究热点。然而,面向多品种、小批量、非结构化复杂曲面零件如航空发动机叶片、燃气轮机叶片等,机器人离线编程困难、配置周期长。结合虚拟夹具的机器人动觉示教可实现人手操作轨迹向机器人迁移,克服机器人离线编程效率低、示教学习精度差等不足。然而,虚拟夹具辅助机器人
本论文旨在总结分析当前持久性有机污染物在长江流域内的分布现状,探讨不同环境介质以及不同地区内持久性有机污染物的分布的差异性与规律性,并对于持久性有机污染物对城市人群的健康影响进行评估,为进一步控制污染以及维护人们健康提供参考。总结文献检索平台上相关文献,进行总结归纳,针对采样检测数据进一步进行环境与健康风险评价,提出典型持久性有机污染物的分布规律,计算相关风险值进行评估。基于知网、万方、Web O
随着毫米波辐射测量技术的不断发展成熟,被动毫米波极化测量技术作为目标信息获取的一种有效方法受到国内外学者的广泛关注。毫米波具有全天候的特性,能够穿透衣服、云雾等等,在人体安检、军事目标探测、火灾消防、地形测量等方面发挥着重要作用。目前,通过被动毫米波极化测量可以对目标进行金属与非金属材料分类,获取目标的属类信息,是除可见光、红外和雷达之外的又一重要探测手段,具有重要的科研价值和国防战略意义。本文首
攻击者很容易利用计算机网络不可或缺的网络基础设施——DNS域名系统,构建DNS隐蔽通道进行隐蔽通信。恶意利用DNS隐蔽通道的攻击行为给企业和个人造成严重的信息安全威胁。当前,DNS隐蔽通道检测工具仍停留在实验室阶段,其使用范围大多是局域网且安装部署复杂。本文旨在设计一个普通用户可以使用的DNS隐蔽通道检测系统来保障个人计算机不受DNS隐蔽通道威胁。DNS隐蔽通道检测系统基于MVC设计模式,包含四个
学位
伴随着目前信息时代的飞速扩张发展,信息资源,数据资源是一切的根本,信息检索的使用范围越来越庞大且不可或缺。检索系统可以解决传统的搜索方法中部分错查,误查,漏查,无法给用户提供针对性的检索服务等问题。为了可以针对公司内部数据和内部员工提供更加个性化的检索服务,可以缓解检索效果不佳所带给用户的不便,减少用户的检索耗时,提升用户的使用体验,设计并实现了检索系统。系统在离线段,首先从网络上爬取,收集金融、
忆阻器以其尺寸小、功耗低、易集成、非易失性等诸多优点,在非易失性存储,模拟人工神经网络,模拟电路和数字电路等领域有着广泛的应用。现有的忆阻器通常表现出阈值电压特性,即只有在忆阻器两端的电压大于阈值电压时,忆阻器的阻值才发生变化,小于阈值电压时忆阻器的阻值保持不变可作为负载电阻。高于阈值电压时,阻值可通过编程方式连续调制,实现基本电路性能的动态可调。因此,可将这一新型的基本电路元件忆阻器引入电路设计
细粒度图像识别是计算机视觉中一个重要又具有挑战性的研究领域。相较与粗粒度地区分“鸟”和“狗”,细粒度图像识别是更加细致地区分“鹦鹉”和“喜鹊”。细粒度图像识别在工业方面和学术方面都有非常广泛的使用需求和应用场景。细粒度图像的特点是类别间差异微小,一般只有利用微小的局部区域才能区分开各自不同的类别。现有的方法很多都是尝试学习如何找到区分性的区域,然后通过裁剪和放大这些局部区域来实现识别。尽管已经实现
企业信息化程度已经成为衡量企业实力的标准之一,在航空货运行业内,以国际航空运输协会及中国航空结算有限公司为代表的客、货运收入管理系统产品分别向收入结算发展的智能分析方向发展,为公司决策做支撑。而H公司收入结算发展整体相对行业有较大差距,结算信息化刚刚起步。为了获得更好技术支持、降低投入成本,H公司选择以外包方式建设财务结算系统,实现业务结算工作电子化及信息化,追赶行业步伐提升结算水平进而提升公司软