论文部分内容阅读
当前大部分搜索引擎都存在搜索结果有大量重复网页或者转载网页的问题,同时中文搜索引擎的网页聚类也处于刚刚起步阶段,很多技术都还不能应用到实际应用中去。随着中国高校的数目和规模逐年增加,高校搜索引擎技术的落后产生的弊端也浮出水面。针对这些问题,该文着重对搜索引擎的基本工作原理、现有的网页消重技术和网页聚类技术进行了深入的研究和探讨,设计了高校搜索引擎系统。该文着重从以下几个方面做了研究和应用:第一,对网页预处理过程中的网页表示模型进行了研究和改进:为了后续的聚类工作研究了向量空间模型,并在现有向量空间模型基础上进行了加权改进,解决了原来模型不能反映特征项的位置不同所占权重也不同和语义等问题;为了得到网页表示模型,对基于分块的网页正文提取进行了研究,给出网页分块算法的具体过程。第二,对网页消重算法进行了研究和改进:针对Internet上大量重复和转载网页的问题,研究了基于距离的网页消重算法和全文分段签名算法,其中前者通过引入向量空间模型,通过计算网页相似度,大大的提高了网页消重的质量;对于后者则在原有的全文分段签名算法的基础上进行了改进,大大地缩小了数据集,解决了原有方法速度慢的问题。第三,研究并改进了现有聚类算法:研究并比较了包括K均值聚类算法、EMClustering算法、基于容错粗糙集的聚类算法、最小-最大超盒聚类算法在内的聚类算法;在原有算法基础上提出了旋转最小-最大超盒聚类算法、基于容错粗糙集的旋转最小-最大超盒聚类算法,其中:前者利用模糊理论中的超盒理论来对聚类定义,解决了原有聚类算法对簇的形状识别和处理的局限;后者利用容错粗糙集的理论解决了大多数聚类算法只侧重于类内尽量相似,类间差异尽量大而导致的没考虑交叉语义存在的情况,使聚类结果更加可理解。第四,在现有搜索引擎的基础上提出了高校搜索引擎系统并给出了网页消重和聚类算法在高校搜索引擎中的应用:其中,前者给出了高校搜索引擎的系统结构、工作原理和工作流程:后者给出各种算法在高校搜索引擎中的应用过程:包括网页预处理过程的网页正文提取、网页消重算法、以及网页聚类过程中K均值聚类算法,K-mediods算法,...,最小-最大超盒聚类算法等在高校搜索引擎中的应用。最后给出了各种算法的评价和比较。经实验验证,本文提出的算法能够解决当前高校搜索引擎面临的基本问题,并优于大部分现有算法。