基于lucene的垂直搜索引擎研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wangyang2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“大数据”这个概念自1998年被John R.Mashey提出到2018年已经人尽皆知、耳熟能详,面对如此巨量的信息,通用搜索虽然已经做得不错但其结果大,杂,宽,往往需要我们多次翻页才能找到我们感兴趣的信息,费时费力,所以本文通过对垂直引擎和推荐算法的深入研究,实现了一个基于用户个性化需求的垂直搜索引擎,使其能够更加快速的定位我们真正感兴趣的信息集,结合排序算法和推荐算法减少用户翻页次数,从较少次数的搜索和翻页来较大程度上满足用户信息需求,本文通过对垂直搜引擎的深入研究,在Lucene评分的基础上优化了排序算法,为了排序结果更符合用户喜好,本文在收集用户兴趣集的基础上添加了用户兴趣冷却算法,能更精确的定位用户的阶段性喜好;为挖掘用户的潜在需求提出了自适应的用户兴趣挖掘推荐算法,针对用户需要的而排序无法排到前面的用推荐算法来解决,排序和推荐算法相辅相成来达到充分挖掘用户所需的信息,形成整体的个性化排序与推荐,构建实现个性化的垂直搜索引擎系统。本文的主要工作以商品的垂直搜索为切入点,针对海量信息存储索引巨大问题采用了要素提取和分布式存储技搜索术的解决方案,针对垂直搜索“僵硬”问题提出了基于用户兴趣相关的二次排序算法和挖掘用户潜在需求的推荐算法的解决方案;分布式计算和存储的发展已经比较完善可以解决海量信息存储难问题,尤其是扩展性及容灾性大大提高了数据的安全性;本文通过对垂直搜索引擎原理和应用场景进行了深入的研究与学习,结合全文检索工具Lucene的优秀分布式框架ElasticSearch设计实现了一款针对电商方向的商品垂直搜索引擎系统,通过对Lucene评分机制研究改进了检索排序算法,优化了排序算法,在第一次综合属性排序的基础上进行了二次兴趣相关排序;另外加入了自适应的用户兴趣挖掘推荐算法,推荐算法加入了用户地理位置参数影响因子,结合基于Rocchio推荐算法和基于JLH显著评分的协同过滤推荐算法还有商品热度推荐算法做出的混合推荐算法,来深度挖掘用户潜在需求,做到自适应的个性化推荐和垂直搜索排序结果的个性化。
其他文献
简要介绍了某水电站内部观测自动化监测系统,重点介绍了系统所采用的整体屏蔽、交流电源防雷、通信线路防雷、传感器线路防雷等各项防雷措施。在应用中对发生的数次雷击事件进
冲突是任何团队都无法回避的问题,研究高管团队内冲突与企业家精神之间的关系具有一定的现实意义。通过对179份有效样本问卷进行数据分析和处理,对高管团队任务冲突与企业家
地应力测试技术多样,缺乏相互间的横向比较,各种方法的无选择应用制约了行业的整体发展。简要介绍了地应力测试技术的发展过程和分类,借用机械设计方案评价的基本原理,建立简
为了克服现有机翼结构重量计算方法的局限性,提出一种基于多学科分析优化的机翼结构重量计算方法。以客机机翼为例,阐述整个计算流程。计算流程的关键步骤包括机翼外形和结构
本文以芒果TV为例,对电视媒体和网络进行融合,整合电视媒体内容优势和网络传播工具优势,互相借力发展促成更优竞争力的运作模式进行研究。通过对芒果TV的运营的研究,分析其成
丹江口水库的修建改变了原来的来水来沙特性,对水库下游河床造成了不同程度的冲刷。加高后的丹江口大坝为南水北调中线水源工程。工程运用后必将对丹江口水库大坝下游河床、水
实施职业教育对听障儿童有着极其重要的意义,它能使这些特殊儿童获得生存的专业能力、技能和谋生的手段,这不仅可以体现教育的公平,还能使他们变消费者为生产者,有助于减轻他