针对搜索结果的位图表示及聚类算法改进研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:meisck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络科技和搜索技术的迅猛发展使得人们越来越多地通过互联网和搜索引擎获取信息,搜索结果种类多、排列乱是影响用户快速获取有效信息的重要因素。为提高用户获取有效信息的速度、改善用户的搜索体验,聚类分析技术被广泛应用到搜索结果中。目前,针对搜索结果聚类的大部分研究集中于聚类方式,忽略了搜索结果的表示方法对聚类效果和收敛速率的影响;此外,常用于搜索结果聚类的K-means算法的聚类效果和收敛速率受初始聚类中心影响较大,而当前关于初始聚类中心的研究仍然存在一些不足。基于此,本文从搜索结果的表示方法和初始聚类中心的选择两个方面展开研究,具体完成了以下几项工作:(1)针对向量空间模型存在文本相似度计算耗时以及存储空间需求较大的问题,本文结合向量空间模型和布尔模型各自的优点提出了基于位图的文本表示方法表示搜索结果。该方法先用向量空间模型将搜索结果表示成特征向量,然后将特征权重转换为对应的布尔值,最后以位为单位存储布尔值形成位图特征向量。实验结果表明,本文提出的位图文本表示方法可以有效的提高搜索结果的文本相似度计算速率,同时减少特征矩阵所需的存储空间。(2)针对K-means算法随机选择初始聚类中心导致算法不可重复实现,同时可能使算法陷入局部最优解、减缓算法收敛速率的问题,本文提出了基于悲观准则和近邻算法的初始聚类中心选择算法。通过悲观准则选择K个相距最远的数据作为备选初始聚类中心,然后寻找各个备选初始聚类中心的近邻簇,最后以各个近邻簇的中心作为初始聚类中心。实验结果表明,本文提出的基于悲观准则和近邻算法的初始聚类中心选择算法可以有效的提高K-means算法的聚类效果和收敛速率,同时保证了算法的稳定性。(3)针对现有聚类搜索引擎产品存在的问题,本文设计并实现了一个基于本文研究成果的聚类搜索引擎原型系统。该原型系统实现了搜索结果获取、预处理、特征表示、初始聚类中心选择、聚类以及搜索结果展示等功能。其运行效果表明,将本文研究成果应用到搜索结果聚类中,能够有效地提高用户获取信息的效率,改善用户的使用体验,同时为将来类似的聚类搜索引擎系统的研发提供了借鉴参考。
其他文献
政府、企业内部经常需要共享文档,在文档共享过程中易造成文档泄露,给用户带来重大损失。如何根据泄露的文档快速定位泄露者对于文档保护具有重要意义。文本图像水印通过嵌入
水稻作为我国主要粮食作物。人们追求口感佳、品质好、产量高的品种,在购买水稻种子时候,追求真实性;育种家选育的品种则希望得到保护。构建水稻品种指纹图谱、分析遗传多样
如何快速培肥土壤、增加土壤有机碳、改善土壤理化性状、提高保水保肥能力是川西北高寒沙地土壤治理的关键。秸秆、菌渣等有机物料是农业生产的废弃物,具有丰富的有机碳和氮
研究目的:探讨高密度脂蛋白对类风湿性关节炎的作用及其机制。研究方法:将DBA/1小鼠分为对照组、类风湿性关节炎CIA组和高密度脂蛋白干预组CIA+HDL组。在第0天,CIA组与CIA+HD
软件老化是指在系统持久和连续地运行过程中,由于老化相关的错误的累积而导致的资源持续消耗、系统性能持续下降或系统错误数持续增加,并最终导致系统崩溃的现象。安卓移动终
自2005年我国新修改的《公司法》引入股东代表诉讼制度以来,该制度为保护公司与股东利益发挥了重要的功效,充分发挥了司法审判活动对公司和股东之利益的保护。但是在整个社会
磁场传感发展至今,传统的磁场传感器易受电磁干扰等影响,而基于光纤的光学磁场传感器利用光信号传输,具有体积小、重量轻、结构简单,且不受电磁干扰影响的特点,在磁场探测领域展现出了一定的应用前景。随着光纤制作技术的发展,倾斜光纤光栅以其独特的光学传感特性,获得了学术人员的广泛研究。本文的主要创新点及研究内容如下:(1)研究了倾斜光纤光栅的结构和纤芯模在不同倾斜角范围内的相位匹配条件,得出不同模式的谐振波
建筑美观新颖和功能多元化是现代公共建筑的发展方向,大底盘多塔结构成为现代城市综合体建筑的主要结构形式。为满足空间共享和美学效果等要求,复杂超限结构设计是工程师们常
目的:利用CRISPR-Cas9系统从基因组水平上分别敲除编码基因MKL1和长链非编码RNA HOTAIR。为研究在宫颈癌中MKL1与HOTAIR的作用,构建二者缺失型HeLa细胞株,扩大该系统的应用范
热桥对建筑能耗有着重要影响,研究夏热冬冷地区热桥对建筑能耗的影响对推进实施《夏热冬冷地区居住建筑节能设计标准》,实现《建筑节能与绿色建筑发展“十三五”规划》中相关