论文部分内容阅读
搜索引擎是信息网络时代人们不可缺少的获取信息的重要工具,人们通过输入查询来获取搜索结果,从而从网络上的离散海量数据中获取想要的信息。然而当前搜索引擎返回的结果数量庞大,人们要获取想要的信息仍然比较困难。用户的需求是以最快的速度获得与查询最相关并且最权威的网页信息。围绕这两个需求高效的组织查询结果是搜索引擎亟需解决的问题。本文就是在这样的技术背景下展开研究,研究对象是两种主要的搜索结果组织技术:网页排序和搜索结果聚类。
首先,以Web挖掘的三个方面Web内容挖掘、Web结果挖掘和Web使用挖掘为主线,对主流网页排序算法PageRank,HITS及其派生算法进行了详细综述,并提出网页排序算法的发展趋势,即综合使用网页的多方面信息用于排序、结合Web使用信息设计个性化的排序算法。
在PageRank框架下,综合使用网页内容和链接结构信息,修改经典的随机访问模型,提出扩展的PageRank算法来解决用户对搜索结果的相关性和权威性两方面需求。修改后的随机访问模型,增强了网页权威性和内容相关性在权值分配中的重要性。最终开发了网页排序算法实验平台,验证了算法的有效性,相同条件下可以获得比。PageRank更好的排序结果。
中文网页信息处理时中文分词是必不可少的重要步骤之一,针对基于字典的中文分词算法对歧义词和未登录词分词效率低的问题,提出基于字典和后缀数组的分词算法,实验表明本算法可以有效提取高频未登录和歧义的词和短语。
对传统的聚类算法和文本聚类算法进行了综述性研究,指出用于搜索结果聚类算法的特别要求,实时性,即高效性,和能够准确的提取聚类描述。
最后,提出基于关联规则挖掘的搜索结果聚类算法,将网页集看作事务集,将网页中的每个词看作事务项进行关联规则挖掘。最后将此聚类算法用于设计开发的元搜索引擎系统,实验结果表明此算法可以有效地进行网页聚类,可以较容易地提取较准确的聚类描述,并且容易实现层次聚类。