基于半监督聚类的个性化搜索研究

来源 :青岛理工大学 | 被引量 : 0次 | 上传用户:tklsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着二十一世纪电子商务的迅速发展,用户通过互联网进行网络购物的活动越来越频繁,这就促使人们不断改进网络服务来满足顾客的需求。而在电子商务系统中,顾客势必要通过搜索服务进行相关商品的查找。传统的搜索功能大多是基于关键字或者基于一定规则进行匹配,然后返回查询结果给顾客。为了给用户提供个性化的查询服务,个性化搜索孕育而生。在个性化服务帮助下,顾客能够更好的得到查询结果;同时有利于商家增加交易机会,发掘潜在顾客。本文针对目前搜索引擎的不足和当前用户对搜索功能的需求,在深入研究个性化搜索及相关技术的基础上,结合半监督聚类知识,探索了两种实现个性化搜索的方案,并在此基础上实现了一个基于半监督聚类的个性化搜索系统。为此,本文主要工作如下:1)网络爬虫作为自动搜集互联网信息的程序,不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,获取网站特定信息。本文根据正则表达式和对网页结构的分析,用java语言实现了一个网络爬虫系统,爬取京东商城上商品的信息,经过预处理将数据存储到数据库中,作为后续工作的数据源。2)研究了基于属性排序的商品个性化搜索。半监督聚类算法通过引入少量先验知识来指导聚类,可以有效的提高聚类的质量和有效性。本文把用户关注的商品属性信息作为先验信息指导聚类,辅助商品划分,以达到商品的个性化搜索。并利用客观性评价指标和主观性评价对聚类结果进行评价,证实了商品划分的有效性。3)为了更加准确的反映用户的需求,本文把成对约束形式的实例层知识也引入到聚类中,同时结合商品的属性排序知识辅助商品的划分,以实现商品的个性化搜索。主要讲述了成对约束形式的实例层知识的获取和表示,以及如何利用这两种知识实现商品的相似性划分,最后对实验结果进行了客观评价和主观评价。4)结合上述研究工作,基于本文构建的网络爬虫,针对文中提到的两种个性化搜索方案,设计并实现了一款个性化搜索系统。通过对以上问题的研究,本文可以作为电子商务网站实现个性化搜索的一种解决方案。本文的工作可以较好地应用于电子商务领域,能够为电子商务中的个性化推荐技术和销售策略的制定等提供强有力的技术支持和理论基础,同时本文的研究方法还可以为其他相关适用领域的应用问题提供研究思路。
其他文献
随着数据库在数据管理和决策中的应用不断普及,数据库系统安全显得至关重要。传统的以预防和保护为中心的数据库安全机制重点关注数据库机密性,在很多情况下忽略了数据完整性
树的运动的模拟是自然景观模拟的重要组成部分。它是一项十分复杂的任务,尤其是关于树枝断裂的模拟,更是树的运动模拟中的难题之一。因此,对树枝断裂现象的研究是十分有价值
随着测序等生物科学技术的发展,生物数据总量以及数据的复杂性正在高速地增长。对于同一种生物数据,不同的生物学家可能会使用不同的描述方式,这样就会导致其他人对生物数据
随着Internet的迅速发展,新信息、新产品每天都在不断被放上Web,同时,用户的种类、数量和关注点也在增加。一方面,用户从浩瀚如烟的信息中找到自己需要的信息越来越困难;另一方面,W
为有效评估计算机网络的安全状况,进而使网管人员尽早发现网络存在的脆弱性并采取修补、防范等措施,本文对基于FCM的网络安全评估模型、基于NASL的远程主机脆弱性探测、基于A
学位
近年来,随着我国公路路网建设进入高速发展时期,越来越多的高速公路隧道在我国多山地区投入使用。隧道监控系统采集到越来越多的隧道内环境数据,但是这些数据由于未受到足够的重
目前,移动、电信和联通三大通信运营商都采用指定第三方代维公司来进行基站维护工作的管理模式,基站发电工作是确保基站电力供应,保障基站不退服的重要工作之一。由于大部分通信基站都直接采用市电电力,当出现大面积和长时间市电断电时,基站维护发电需要采取科学合理的调度方法。在实践中常用的调度方法,例如经验判断法、排队法、规划法等,都有各自的局限性,因此,研究科学、适用和实用的基站发电调度方法,开发基站维护发电
随着互联网的飞速发展,网络媒体已成为人们获取信息的重要来源,网络纷繁复杂的内容信息对社会大众的影响力大大提高。传统的由专业人员通过人工方式对新闻语料进行分析,并提
随着互联网迅速崛起,其用途已经涵盖了生活的方方面面。以社交网络为主流的互联网应用越来越受到人们的关注。随着移动终端技术和无线接入技术的兴起,移动互联网应运而生,也