论文部分内容阅读
“大数据”这个概念自1998年被John R.Mashey提出到2018年已经人尽皆知、耳熟能详,面对如此巨量的信息,通用搜索虽然已经做得不错但其结果大,杂,宽,往往需要我们多次翻页才能找到我们感兴趣的信息,费时费力,所以本文通过对垂直引擎和推荐算法的深入研究,实现了一个基于用户个性化需求的垂直搜索引擎,使其能够更加快速的定位我们真正感兴趣的信息集,结合排序算法和推荐算法减少用户翻页次数,从较少次数的搜索和翻页来较大程度上满足用户信息需求,本文通过对垂直搜引擎的深入研究,在Lucene评分的基础上优化了排序算法,为了排序结果更符合用户喜好,本文在收集用户兴趣集的基础上添加了用户兴趣冷却算法,能更精确的定位用户的阶段性喜好;为挖掘用户的潜在需求提出了自适应的用户兴趣挖掘推荐算法,针对用户需要的而排序无法排到前面的用推荐算法来解决,排序和推荐算法相辅相成来达到充分挖掘用户所需的信息,形成整体的个性化排序与推荐,构建实现个性化的垂直搜索引擎系统。本文的主要工作以商品的垂直搜索为切入点,针对海量信息存储索引巨大问题采用了要素提取和分布式存储技搜索术的解决方案,针对垂直搜索“僵硬”问题提出了基于用户兴趣相关的二次排序算法和挖掘用户潜在需求的推荐算法的解决方案;分布式计算和存储的发展已经比较完善可以解决海量信息存储难问题,尤其是扩展性及容灾性大大提高了数据的安全性;本文通过对垂直搜索引擎原理和应用场景进行了深入的研究与学习,结合全文检索工具Lucene的优秀分布式框架ElasticSearch设计实现了一款针对电商方向的商品垂直搜索引擎系统,通过对Lucene评分机制研究改进了检索排序算法,优化了排序算法,在第一次综合属性排序的基础上进行了二次兴趣相关排序;另外加入了自适应的用户兴趣挖掘推荐算法,推荐算法加入了用户地理位置参数影响因子,结合基于Rocchio推荐算法和基于JLH显著评分的协同过滤推荐算法还有商品热度推荐算法做出的混合推荐算法,来深度挖掘用户潜在需求,做到自适应的个性化推荐和垂直搜索排序结果的个性化。