【摘 要】
:
据统计目前互联网上电子商务网站提供的商品总数达到10亿以上,而目前已有的购物搜索引擎对用户的查询只是按相关性返回大量的结果,并没有对众多的结果进行有效的组织和归类,
论文部分内容阅读
据统计目前互联网上电子商务网站提供的商品总数达到10亿以上,而目前已有的购物搜索引擎对用户的查询只是按相关性返回大量的结果,并没有对众多的结果进行有效的组织和归类,所以用户无法从搜索引擎的返回结果中快速找到有效信息。因此如何使搜索引擎的返回结果对用户更加有价值的研究成为一个热点课题。由于网页聚类技术可以对搜索结果进行自动组织和分类,所以可以使用户更加直观和方便的找到所需要的信息。因此本文设计和实现了一个面向购物领域的聚类搜索引擎来解决目前购物搜索引擎存在的难题。本文完成的主要工作任务如下:1、在分析了本系统功能需求的前提下,设计了本系统的整体架构。然后深入研究了主题爬虫MetaSeeker工作流程、Lucene的检索原理和网页聚类技术等实现系统的相关技术。2、对K-Means算法进行优缺点分析。然后深入研究相似性传播算法(Affinity Propagation, AP算法),并针对该算法中的生成簇集的过程进行改进。最后通过实验分析K-Means、AP算法、改进的AP算法三者的运行时间、聚类效果、聚类纯度,实验证明改进的AP算法是最高效和最优的。3、在构建本系统的聚类模型的时候,根据本系统文本特征提出了一种适合本系统的相似度计算模型。4、实现了面向购物领域的聚类搜索引擎的整体开发,具体任务包括:首先用MetaSeeker主题爬虫采集数据源,然后在Lucene上实现本系统的索引、搜索和聚类三个模块,最后用PHP实现了用户查询接口。通过对本系统的搜索结果与目前的购物搜索引擎、聚类搜索引擎的搜索结果进行对比,证实了本系统在搜索和用户体验方面的优越性。同时对系统进行了大量的性能测试和分析,分析结果证明本系统达到了预期目标。
其他文献
近年来,基于内容的图像检索技术由于其具有广泛的应用前景而得到了大量研究。基于内容的图像检索技术主要使用图像的颜色、纹理、形状等底层视觉特征进行检索,而颜色是彩色图
近年来随着Internet在各个领域应用的普及和深化,人们迫切需要实现一种能够在Interact上跨平台、语言独立、松散耦合的异构集成与交互的面向服务的应用,SOA(Service-Oriented
近年来P2P技术发展迅速,P2P技术可以利用闲置的网络资源,提高系统的可扩展性,使网络流媒体向更大规模发展。如何充分利用P2P网络中节点资源,保证流媒体服务质量,这就是P2P流
目前,犯罪数据(Crime data)的搜集、挖掘和相关数据库系统的建设引起了各国安全部门的重视。犯罪数据的分析与挖掘旨在发现犯罪活动规律以及分析犯罪行为,并从中预测某地区犯
目前,工作流技术已经成为现代化企业实现过程管理和过程控制的一项关键技术,越来越多的应用系统集成工作流管理系统,实现协同工作、业务系统集成、过程管理,提高应用系统适应
无线传感器网络作为一种新型的无线网络,为人们与周围环境的自主交互提供了新的平台和解决方法,在军事、环境、医疗、商业等领域都具有广阔的应用前景和很高的应用价值。但是
微博客在线社会网络作为互联网应用新宠,以其便捷、即时、多样化信息传播特点受到了国内外网民的普遍青睐,它非常高的传媒价值得到了社会的普遍认可,尤其是在热点事件传播过程中
群智感知是一种新的计算和感知模式,它主要是利用了移动智能设备的感知、计算、存储和通信功能,通过将移动用户随身携带的移动智能设备看作是一个个功能强大的、智慧的无线传
随着社会和经济的不断发展,人们对身份鉴别在准确性、安全性与实用性方面提出了更高要求。传统基于所有物或所知物的身份鉴别方式存在易丢失、携带不方便、易被遗忘、易被修
随着信息技术的高速发展,面对复杂的业务和大量而分散的数据库积累的数据资源,我们应该怎样有效地管理和重组数据资源呢?怎样找出有价值的信息以供决策使用呢?这些是企业信息