论文部分内容阅读
随着博客(Blog)的迅猛发展,Blog网页数量急剧膨胀,如何在数量众多的Blog页面中找到自己感兴趣的blog网页?由于blog网页的特殊性如blog更新频繁,普通的网页搜索引擎对blog的检索效率不高,于是针对Blog页面的专业搜索引擎Blog搜索引擎诞生了。然而现有Blog搜索引擎技术存在一些不足,表现在:第一,不支持文档级别的查询,现有Blog搜索不支持用户以Blog文章(博文)作为查询词;第二,结果不能满足用户的查询意图;Blog搜索的结果中存在很多与查询内容无关或者相关度很低的搜索结果;第三,结果排序不理想,内容无关或相关度较低的结果排在靠前位置,而较相关的结果排在较后位置。这些不足影响用户积极性,阻碍了Blog搜索引擎的发展。作者研究发现,这些不足之处可以归纳到二个方面:一是博文内容相似计算问题,不能支持文档级别查询是因为现有的Blog搜索引擎没有有效的计算blog网页相似的方法。而搜索结果不能满足用户的查询意图,主要是因为相似是非语义相似或者相似值不准确。二是检索结果排序方面,如何让内容相关的结果排在前,这与检索结果的排序算法相关。本文针对这两个方面进行了深入研究。针对博文内容相似性比较方面,作者基于现有网页内容相似性计算方法的研究基础上提出了基于本体的博文相似比较方法(Semantic Similarity of Posts basedon Ontology,SSPO)。为了支持文档相似的计算,SSPO提出个体本体以表示博文的信息,把博文相似计算转化成个体本体相似计算。博文网页作为一种有效的信息载体,它不仅有普通网页的特征,还具有普通网页没有的分类、标签、评论等特征信息。为了提高相似计算的精确度,SSPO提出了博文特征的概念,改进了关键词提取算法。针对搜索引擎排序算法的方面,作者分析了HITS算法和PageRank算法,本文重点研究了PageRank算法,针对它的不足,作者提出在PageRank算法中融合链接页面的内容相似思想。改进后提出改进的排序算法IPageRank,它的核心思想是如果博文A有正向链接到博文B,则表明博文A对博文B有贡献,贡献的大小由该正向链接的两个博文网页内容的相似度决定,相似度越高,博文A对博文B的贡献值越大,否则越小。改进后的算法既保证了结果网页的公共权威性,又保证结果内容是相关的。本文构建了世博本体,实现了基于世博本体的Blog搜索引擎BSE,通过BSE的实现验证了SSPO和IPageRank的有效性,最后对本文提出的方法进行了总结和对进一步工作提出了展望。