基于本体的博客搜索引擎关键技术研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:languihe71
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着博客(Blog)的迅猛发展,Blog网页数量急剧膨胀,如何在数量众多的Blog页面中找到自己感兴趣的blog网页?由于blog网页的特殊性如blog更新频繁,普通的网页搜索引擎对blog的检索效率不高,于是针对Blog页面的专业搜索引擎Blog搜索引擎诞生了。然而现有Blog搜索引擎技术存在一些不足,表现在:第一,不支持文档级别的查询,现有Blog搜索不支持用户以Blog文章(博文)作为查询词;第二,结果不能满足用户的查询意图;Blog搜索的结果中存在很多与查询内容无关或者相关度很低的搜索结果;第三,结果排序不理想,内容无关或相关度较低的结果排在靠前位置,而较相关的结果排在较后位置。这些不足影响用户积极性,阻碍了Blog搜索引擎的发展。作者研究发现,这些不足之处可以归纳到二个方面:一是博文内容相似计算问题,不能支持文档级别查询是因为现有的Blog搜索引擎没有有效的计算blog网页相似的方法。而搜索结果不能满足用户的查询意图,主要是因为相似是非语义相似或者相似值不准确。二是检索结果排序方面,如何让内容相关的结果排在前,这与检索结果的排序算法相关。本文针对这两个方面进行了深入研究。针对博文内容相似性比较方面,作者基于现有网页内容相似性计算方法的研究基础上提出了基于本体的博文相似比较方法(Semantic Similarity of Posts basedon Ontology,SSPO)。为了支持文档相似的计算,SSPO提出个体本体以表示博文的信息,把博文相似计算转化成个体本体相似计算。博文网页作为一种有效的信息载体,它不仅有普通网页的特征,还具有普通网页没有的分类、标签、评论等特征信息。为了提高相似计算的精确度,SSPO提出了博文特征的概念,改进了关键词提取算法。针对搜索引擎排序算法的方面,作者分析了HITS算法和PageRank算法,本文重点研究了PageRank算法,针对它的不足,作者提出在PageRank算法中融合链接页面的内容相似思想。改进后提出改进的排序算法IPageRank,它的核心思想是如果博文A有正向链接到博文B,则表明博文A对博文B有贡献,贡献的大小由该正向链接的两个博文网页内容的相似度决定,相似度越高,博文A对博文B的贡献值越大,否则越小。改进后的算法既保证了结果网页的公共权威性,又保证结果内容是相关的。本文构建了世博本体,实现了基于世博本体的Blog搜索引擎BSE,通过BSE的实现验证了SSPO和IPageRank的有效性,最后对本文提出的方法进行了总结和对进一步工作提出了展望。
其他文献
云计算作为未来计算模式的趋势及新一代信息技术和商业模式变革的核心,受到了越来越多的研究人员和企业的关注,具有广阔的市场发展前景。目前几乎所有IT企业巨头都依据各自的技
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据呈海量增长,出现了“数据爆炸但知识贫乏”的现象。在这种情形下,数据挖掘作为处理海量数据的工具便应运而生了
无线自组网(Ad Hoc网络)是一种具有自组织能力的移动分布式多跳无线网络。它可以快速部署和配置,适用于一些临时的、应急的场合,具有广阔的发展前景。该种网络中节点一般靠电
随着大规模并行计算技术的发展,特别是多核技术的不断进步,主流CPU厂商都在致力发展多核处理器,增加芯片支持的并行能力,从而突破半导体工艺的技术壁垒,提升运算速度。同时,在并行
随着互联网技术的迅猛发展,网络舆情监管工作的重要性逐渐被人们认同。目前,网络舆情分析技术已经成为国内外的研究热点,并取得了一定的研究成果,主要的研究领域包括:话题检
随着互联网技术的快速发展和电子商务以及电子产品的普及,网络信息资源的数量急剧增长。一方面,用户在浏览互联网时需要耗费大量的时间才能得到有用的信息。另一方面,信息提供商
随着移动智能终端硬件高速发展,高速移动数据业务的普及,以及Web 2.0与企业应用需求的推动,移动互联网即将成为未来通信及互联网的主要发展方向,其所带来的安全问题,已表现出
在反求工程中,点云多视图拼合是三维数据点采集和处理中必不可少的环节,直接影响到三维数字化的整体精度和后续的模型重建工作。由于点云多视图拼合可以分解为点云数据配准以及
虚拟仿真技术已广泛应用于水利工程的勘测、规划、设计、施工等领域,而传统的库区三维仿真仅仅局限在满足局部区域的立体、直观、沉浸感等要求,停留在浏览观看的层次。由此可
近年来,将大量的计算资源集中起来,为用户提供统一服务的云计算技术得到迅速发展,不断扩展其应用领域。与此同时,伴随着互联网技术的发展,互联网用户的规模也不断增大,解决单一Web