Web搜索结果聚类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:laokai_zhangzichen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上的信息总量不断扩大,Web搜索引擎往往返回了大量与用户需求无关的搜索结果,增加了用户的浏览负担。一种有效的解决方法是对搜索结果进行聚类,形成若干具有特定主题的类,并对每个类提取能描述其大意的类标签对用户的查询过程进行引导,帮助其快速浏览及准确定位信息,这样将会大大减少用户查找自己所需要的结果的时间。   本文针对Web搜索结果聚类方法进行了研究。Web搜索结果聚类必须既满足实时性要求又保证好的聚类效果,因此在选择聚类算法时,必须同时考虑聚类时间和聚类质量两方面的要求。本文首先改进了一种结合k-means的层次化的Web搜索结果聚类方法,新方法首先利用凝聚层次聚类方法确定初始聚类中心,再结合k-means方法对Web文档进行聚类划分。   为更好地适应Web搜索结果聚类的客观性要求,使聚类结果更客观真实,针对聚类搜索引擎的特点,给出了一种基于信息熵的自适应搜索结果聚类方法,该方法采用投票机制确定初始聚类中心,引入信息熵理论来自动确定聚类类别数目,再根据相似度对搜索结果进行聚类划分。   在分析Web搜索结果的数据特点上,论文给出了改进的多方位加权函数权值计算方法,预处理过程中采用了合并词形成短语的方法来弥补分词软件的不足,进一步提高聚类效果。实验证明其有效的。   最后,设计了一个Web搜索结果聚类仿真平台,并对下一步研究工作进行了展望。  
其他文献
摘要:随着信息技术的飞速发展,需要处理的数据量呈级数增长,可视化技术在数据分析和挖掘过程中发挥着越来越重要的作用。与此同时,可视化技术种类也日益增多,且它的应用范围也
随着宽带互联网络的推广与普及,基于宽带网络技术的宽带无线业务得到了迅速的增长。为了满足人们对高速数据业务及多媒体业务的应用需求,有必要开发具有更强大的多媒体业务负载
随着网络技术的飞速发展,未来网络发展呈现出多网融合的趋势。而在多网融合的过程中,无线局域网(WLAN:Wireless Local Area Network)技术以其特有的灵活性受到极大的青睐,被称为
随着信息技术的发展和城市经济社会的发展,城市地下管道网络的规模也逐渐扩大,排水管线、给水管线、燃气管线、电力管线等,众多管线纵横交错、遍布整个城市,构成一张密织的网
21世纪是以网络为基础、高新技术为核心的知识经济社会,网络对我们的生活越来越重要,越来越多的人从网上搜索资料,如今用户对搜索引擎的依赖性越来越强,对搜索结果“专、精、
Ad Hoc网络是指在没有固定基础设施支持的环境下,由具有无线通信功能的节点自组织形成的无线网络。它适用于需要临时架设网络的场所,在军事、民用等领域都具有广阔的发展前景
“汉语热”现象及“孔子学院”的开办表明汉语正在走向世界,汉语已经成为第二语言学习的重要选择。汉语性质独特,非汉字文化圈的外国汉语学习者学习汉语难度极大,其中尤以汉
随着NGN(Next Generation Network)网络设计蓝图的浮现,网格已成为人们研究的热点。网格的核心理念是实现高性能的资源共享和协同工作,从而消除信息孤岛。通过将地理上分散的资
物联网(Internet of things,IoT)系统是极其复杂的异构系统。物联网模式将计算和通信能力延伸到几乎每一个物体,由于物联网需要一个与情境相关的由众多组件构成的复杂分布式结
随着第三代移动通讯技术(3G)的发展和Web服务在电子商务系统中的广泛应用,开发适合于手机设备的移动电子商务系统成了新的研究热点。我国企业在移动电子商务应用方面还存在很