生物领域电商网站搜索引擎的设计与实现

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:myloft9h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与普及,电子商务已经成为了一种新的商业模式,电商网站里面的商品成千上万,如果电商平台没有搜索引擎,我们将很难找到自己想购买的商品。因此,搜索引擎系统是电商网站面临的迫切需求。目前解决电商网站的商品的搜索问题主要有三种方案,一种是借助通用搜索引擎像Google、百度等,这种方式不灵活而且效果不理想;第二种是借助已有的开源框架来实现搜索,这种方式容易受到框架的限制而且不够灵活;第三种是依据现有技术基础,开发网站专用的搜索引擎,这种方案灵活而高效,能够很好地解决电商网站的商品搜索问题。本设计采用第三种方案,为国内某生物领域电商网站开发了一个专用搜索引擎系统,目的是为其用户提供精准、全面、快速的商品查询服务。主要工作如下:(1)数据采集及建立商品网页库模块的设计与实现。针对该生物领域电商网站的商品特色,设计了合适的网页存储格式,以生成商品的网页库。然后使用top K算法对网页库中重复的网页进行处理;利用NLPIR分词技术对网页库中所有的网页进行分词,过滤掉停用词,生成商品词库。(2)网页倒排索引的设计与实现。对服务器中的所有网页分配一个唯一的ID,计算关键词在网页中的词频,然后使用TF-IDF算法计算关键词在网页中的权重,最后完成倒排索引的建立。(3)关键词纠错功能模块的实现。为了提高纠错效率,系统构建了索引模块,采用索引技术以缩小检索范围,然后使用最短编辑距离算法对用户输入的不正确的词进行纠错。(4)查询模块的设计与实现。对搜索引擎中计算网页相似程度的算法(余弦相似定理)进行了较深入的分析研究,采用该算法来计算两个网页的相似程度,并依据计算结果对网页进行排序,以供查询用户使用。最后对搜索引擎的各项功能进行了测试分析,测试结果表明该搜索引擎系统运行良好,各项性能指标达到了预期目标,能解决企业的实际问题,具有一定的实用价值。
其他文献
金砖国家作为世界重要新兴市场国家,在国际投资中占据重要地位,通过签订双边投资条约(以下简称BITs)促进和保障其外国投资和对外投资。这些条约中都有投资定义条款。投资定义
近年来流媒体传输技术迅猛发展,各类自适应流媒体传输协议相继提出,为了将各类协议格式进行统一化和规范化,DASH应运而生。DASH协议的发展主要分为两个方向:基于带宽和缓存等
网络原生数字资源馆藏化建设已成为国内外图书馆实践的热点。文章以探讨网络原生数字资源的概念、类型、特征、网络原生数字资源馆藏化建设的意义为基础,对国内外网络原生数
龙,可以说是中华民族的象征,每一位国人对龙都有着独特的情节,把龙视为一种精神图腾。在对龙的情节和崇拜中,中国形成了极具特色的龙文化。龙文化可以说是伴随着中华历史的起
云计算是一种新型的商业计算模型,核心理念是被称为“云”的资源池,自提出后就受到学术界和产业界的广泛关注。云计算的商业特性使得资源的选择与调度变得更为复杂,是云计算
目的:观察超声引导下腹横肌平面阻滞联合喉罩全身麻醉应用于腹膜透析置管术的麻醉效果,对术中血流动力学、术后镇痛评分和舒适度评分影响,为临床应用提供参考。方法:将我院肾
由于互联网中存在虚假和不健康信息,Web防火墙作为一种安全技术,其重要性也在不断增加。在Web防火墙中,由于网络动态性增强,其IP安全规则的更新愈加频繁的发生。与传统的IP匹
范畴论,包括Abelian范畴,正合范畴等各类范畴的研究,早在上个世纪五十年代就已经开始.由于Abelian范畴是当然的正合范畴,从而研究正合范畴也就更有意义.当然,由于正合范畴有
场景监控已经成为信息时代必不可少的视频采集方式,并且发展出了多种形式。仅仅依靠人工方式对场景监控进行审核和查找已经很难满足目前爆发式增长的视频数据审核需求,因此,
本课题主要研究银行人力资源管理、生产调度部门业务流程,并根据实际需要,对工作内容进行模块化,部署于内部办公系统中,本系统为银行OA系统的子系统之一,系统具有扩展性,亦便