论文部分内容阅读
近些年来,互联网正通过以“线上到线下(Online To Offline,O2O)"为代表的经营模式,逐渐颠覆传统行业。很多传统行业开始使用互联网提供给用户更优质、更个性化的服务。比如,一个支持020模式的餐厅如果能够提供给用户营养的、个性化的菜谱,将能很好地改善用户体验,并增加餐厅的竞争力。本文提出的个性化营养菜谱推荐方法构建的系统,正是一种可以帮助用户轻松获得个性化营养菜谱的系统。网络订餐的兴起使得此系统有了很大的应用价值。本文个性化营养菜谱推荐系统由三个部分组成:前台展示Demo,核心算法和后台数据库。其中核心算法即个性化营养菜谱推荐方法,包括数据获取算法、营养搭配算法和个性化推荐算法。本文针对系统设计以及核心算法设计展开了研究,主要工作如下:1.提出一种基于双队列排序和模式自学习的主题网络爬虫,用于爬取某一限定主题的相关互联网信息。本爬虫基于现有的主题网络爬虫框架,使用双排序队列和URL深度属性增强搜索策略模块性能,使用布隆过滤器优化链接(Uniform Resource Locator, URL)去重模块,通过单独计算主页面和子页面的主题相关性的方式来优化数据分析模块,并新添置了模式-自学习模块。然后给出了本爬虫与通用网络爬虫和双队列主题网络爬虫的对比试验,结果证明本爬虫的harvestRate更高。2.提出一种基于L支配和小组决胜的遗传算法,用于解决在高维空间的多目标优化问题。本算法以非劣排序遗传算法II为基本框架,使用L支配和基于拥挤距离的小组决胜来进行非劣解排序,从父代中选择优秀解进行遗传操作得到子种群,并与父种群合并再次进行非劣排序。然后给出了本算法与两种流行多目标进化算法的对比实验结果,结果证明算法在解决高维多目标优化问题上的表现要明显优于另外两种多目标进化算法。3.最后提出一种基于相似度拓展和兴趣度缩放的协同过滤算法,用于预测新老用户的不同的个性化兴趣。本算法以基于项目的协同过滤算法为框架,通过使用厌恶相似度拓展项目的相似度,再计算出用户对项目的兴趣度,然后使用偏好因子将新老用户对不同流行度项目的不同兴趣度进行缩放。然后给出本算法的调参实验以及与常用协同过滤算法的对比实验结果,结果证明算法有效提升了推荐准确率、召回率和覆盖率,并降低了流行度。4.最后使用上述三种算法组成了一种性化营养菜谱推荐方法,并设计了相应的系统。本文给出了系统的总体架构、前台展示Demo和后台数据存储结构,并讨论了本文提出的主题网络爬虫、多目标进化算法和个性化推荐算法的具体应用过程以及相关参数。