论文部分内容阅读
Internet是一个庞大的、全民共享的信息资源库。用户希望通过这个数据集,检索到与自己需求相关的权威信息。因此,如何有效、准确地从Web资源里找到用户所需的知识成为信息检索和数据挖掘领域的一个重要课题。搜索引擎的出现,为解决这个问题提供了一条崭新的思路。传统的搜索引擎算法主要利用链接分析技术,搜索出的结果在内容上容易出现偏离。本文在链接分析技术的基础上,对传统的超文本主题排序算法(Hyperlink-induced Topic Search, HITS)进行了分析与研究。通过实验发现,由于HITS算法没有充分考虑页面的语义信息,很容易受到无关链接的影响,产生主题偏移和垃圾链接。针对HITS算法的不足,本文提出了一种基于HITS算法的改进算法——Sim-Hits算法。Sim-Hits算法在网页相关度计算过程中融入了网页的语义信息:考虑超链接标签在源网页的DOM树结构中所处的位置信息,以超链接相关文本扩充锚文本,形成概括目标网页内容的锚相关(Anchor-Related)文本;基于《知网》语义字典计算链接的锚相关(Anchor-Related)文本与特定查询主题的相似度值,并将该值作为源网页赋予目标网页的主题相关度权重,运用于加权的I/O操作中进行链接分析,使主题相关度较高的目标网页得到较高的排序分值。最后,本文实现了一个模拟的实验方案,对上述算法进行验证。测试结果表明,Sim-Hits算法与HITS算法相比,弥补了HITS算法的不足,能够更有效的过滤掉无用网页,更好的筛选出权威网页,在一定程度上抑制了主题漂移现象,提升了搜索结果的用户满意度。