论文部分内容阅读
随着互联网的发展与普及,电子商务已经成为了一种新的商业模式,电商网站里面的商品成千上万,如果电商平台没有搜索引擎,我们将很难找到自己想购买的商品。因此,搜索引擎系统是电商网站面临的迫切需求。目前解决电商网站的商品的搜索问题主要有三种方案,一种是借助通用搜索引擎像Google、百度等,这种方式不灵活而且效果不理想;第二种是借助已有的开源框架来实现搜索,这种方式容易受到框架的限制而且不够灵活;第三种是依据现有技术基础,开发网站专用的搜索引擎,这种方案灵活而高效,能够很好地解决电商网站的商品搜索问题。本设计采用第三种方案,为国内某生物领域电商网站开发了一个专用搜索引擎系统,目的是为其用户提供精准、全面、快速的商品查询服务。主要工作如下:(1)数据采集及建立商品网页库模块的设计与实现。针对该生物领域电商网站的商品特色,设计了合适的网页存储格式,以生成商品的网页库。然后使用top K算法对网页库中重复的网页进行处理;利用NLPIR分词技术对网页库中所有的网页进行分词,过滤掉停用词,生成商品词库。(2)网页倒排索引的设计与实现。对服务器中的所有网页分配一个唯一的ID,计算关键词在网页中的词频,然后使用TF-IDF算法计算关键词在网页中的权重,最后完成倒排索引的建立。(3)关键词纠错功能模块的实现。为了提高纠错效率,系统构建了索引模块,采用索引技术以缩小检索范围,然后使用最短编辑距离算法对用户输入的不正确的词进行纠错。(4)查询模块的设计与实现。对搜索引擎中计算网页相似程度的算法(余弦相似定理)进行了较深入的分析研究,采用该算法来计算两个网页的相似程度,并依据计算结果对网页进行排序,以供查询用户使用。最后对搜索引擎的各项功能进行了测试分析,测试结果表明该搜索引擎系统运行良好,各项性能指标达到了预期目标,能解决企业的实际问题,具有一定的实用价值。