基于本体的博客搜索引擎关键技术研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户：languihe71

【摘要】

：

随着博客(Blog)的迅猛发展,Blog网页数量急剧膨胀,如何在数量众多的Blog页面中找到自己感兴趣的blog网页?由于blog网页的特殊性如blog更新频繁,普通的网页搜索引擎对blog的检

【作者】

：

严曙瑾

【机构】

：

华东师范大学

【出处】

：

华东师范大学

【发表日期】

：

2009年期

【关键词】

：

概念语义相似博文文档 PageRank算法共享本体个体本体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着博客(Blog)的迅猛发展,Blog网页数量急剧膨胀,如何在数量众多的Blog页面中找到自己感兴趣的blog网页?由于blog网页的特殊性如blog更新频繁,普通的网页搜索引擎对blog的检索效率不高,于是针对Blog页面的专业搜索引擎Blog搜索引擎诞生了。然而现有Blog搜索引擎技术存在一些不足,表现在:第一,不支持文档级别的查询,现有Blog搜索不支持用户以Blog文章(博文)作为查询词;第二,结果不能满足用户的查询意图;Blog搜索的结果中存在很多与查询内容无关或者相关度很低的搜索结果;第三,结果排序不理想,内容无关或相关度较低的结果排在靠前位置,而较相关的结果排在较后位置。这些不足影响用户积极性,阻碍了Blog搜索引擎的发展。作者研究发现,这些不足之处可以归纳到二个方面:一是博文内容相似计算问题,不能支持文档级别查询是因为现有的Blog搜索引擎没有有效的计算blog网页相似的方法。而搜索结果不能满足用户的查询意图,主要是因为相似是非语义相似或者相似值不准确。二是检索结果排序方面,如何让内容相关的结果排在前,这与检索结果的排序算法相关。本文针对这两个方面进行了深入研究。针对博文内容相似性比较方面,作者基于现有网页内容相似性计算方法的研究基础上提出了基于本体的博文相似比较方法(Semantic Similarity of Posts basedon Ontology,SSPO)。为了支持文档相似的计算,SSPO提出个体本体以表示博文的信息,把博文相似计算转化成个体本体相似计算。博文网页作为一种有效的信息载体,它不仅有普通网页的特征,还具有普通网页没有的分类、标签、评论等特征信息。为了提高相似计算的精确度,SSPO提出了博文特征的概念,改进了关键词提取算法。针对搜索引擎排序算法的方面,作者分析了HITS算法和PageRank算法,本文重点研究了PageRank算法,针对它的不足,作者提出在PageRank算法中融合链接页面的内容相似思想。改进后提出改进的排序算法IPageRank,它的核心思想是如果博文A有正向链接到博文B,则表明博文A对博文B有贡献,贡献的大小由该正向链接的两个博文网页内容的相似度决定,相似度越高,博文A对博文B的贡献值越大,否则越小。改进后的算法既保证了结果网页的公共权威性,又保证结果内容是相关的。本文构建了世博本体,实现了基于世博本体的Blog搜索引擎BSE,通过BSE的实现验证了SSPO和IPageRank的有效性,最后对本文提出的方法进行了总结和对进一步工作提出了展望。

其他文献

云计算数据中心虚拟机资源分配策略的研究

云计算作为未来计算模式的趋势及新一代信息技术和商业模式变革的核心，受到了越来越多的研究人员和企业的关注，具有广阔的市场发展前景。目前几乎所有IT企业巨头都依据各自的技

学位

云计算虚拟机数据中心动态管理虚拟机放置遗传算法

基于粗糙集的数据挖掘方法研究

随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据呈海量增长,出现了“数据爆炸但知识贫乏”的现象。在这种情形下,数据挖掘作为处理海量数据的工具便应运而生了

学位

数据挖掘粗糙集类分布链表离散化属性约简值约简

一种基于最小能量路径的无线自组网络路由协议

无线自组网(Ad Hoc网络)是一种具有自组织能力的移动分布式多跳无线网络。它可以快速部署和配置,适用于一些临时的、应急的场合,具有广阔的发展前景。该种网络中节点一般靠电

学位

Ad Hoc网络能量控制拓扑控制路由算法

基于并行遗传算法的图像分割的设计与实现

随着大规模并行计算技术的发展，特别是多核技术的不断进步，主流CPU厂商都在致力发展多核处理器，增加芯片支持的并行能力，从而突破半导体工艺的技术壁垒，提升运算速度。同时，在并行

学位

并行遗传算法OpenMP编程多核计算机多线程图像分割最大熵

互联网话题演变与传播分析技术研究

随着互联网技术的迅猛发展,网络舆情监管工作的重要性逐渐被人们认同。目前,网络舆情分析技术已经成为国内外的研究热点,并取得了一定的研究成果,主要的研究领域包括:话题检

学位

话题演变话题传播向量分解传播图多元线性回归

互联网访问数据用户识别与兴趣度分析——电信用户数据

随着互联网技术的快速发展和电子商务以及电子产品的普及，网络信息资源的数量急剧增长。一方面，用户在浏览互联网时需要耗费大量的时间才能得到有用的信息。另一方面，信息提供商

学位

互联网访问日志数据用户识别聚类算法兴趣度分析语义相似度

Android平台下基于LSM的访问控制工具AFACE的设计与实现

随着移动智能终端硬件高速发展,高速移动数据业务的普及,以及Web 2.0与企业应用需求的推动,移动互联网即将成为未来通信及互联网的主要发展方向,其所带来的安全问题,已表现出

学位

移动终端安全性访问控制Linux安全模块

点云多视图拼合研究与设计

在反求工程中，点云多视图拼合是三维数据点采集和处理中必不可少的环节，直接影响到三维数字化的整体精度和后续的模型重建工作。由于点云多视图拼合可以分解为点云数据配准以及

学位

点云视图拼合数据点采集数据配准数据融合

水库动态优化的虚拟仿真及实现

虚拟仿真技术已广泛应用于水利工程的勘测、规划、设计、施工等领域,而传统的库区三维仿真仅仅局限在满足局部区域的立体、直观、沉浸感等要求,停留在浏览观看的层次。由此可

学位

梯级水库虚拟现实仿真技术动态优化

云架构的Web服务器集群的探索与研究

近年来，将大量的计算资源集中起来，为用户提供统一服务的云计算技术得到迅速发展，不断扩展其应用领域。与此同时，伴随着互联网技术的发展，互联网用户的规模也不断增大，解决单一Web

学位

Web服务器集群云计算MapReduceStorm流处理

基于本体的博客搜索引擎关键技术研究与实现

与本文相关的学术论文