分布式RDF关键词语义搜索研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:liuyi8431201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义网(Semantic Web)通过赋予信息明确的结构和语义,使得机器能更好地显示、理解和处理它们。RDF(Resource Description Framework)是由W3C(万维网联盟)提出的用于描述语义万维网资源的一个框架。随着链接开放数据(Linked open data)和DBpedia等项目的全面展开,很多领域以RDF为数据模型发布各自的语义知识库。结构化查询语言是访问语义数据的标准查询语言,但查询规则复杂不能满足普通用户的查询需求。为了满足普通用户对日益庞大的RDF语义数据检索的需求,提出能够处理海量RDF语义数据且支持人们熟悉的高效的关键词分布式搜索方案,对于语义搜索推广和语义知识共享具有重要意义。首先,本文提出一种面向大规模RDF数据的分布式语义搜索算法DKSSO(Distributed Keyword Semantic Search on Ontology)。该算法基于分布式数据库Hbase存储RDF本体和RDF实例数据,依据RDF数据类型将大规模实例数据进行分布式分类存储,帮助搜索定位和缩小查找范围。在搜索时,先结合RDF本体构建关键词对应的本体子图,将关键词从内容层面映射到本体语义层面,并提出一种语义评分函数评分排序。再利用MapReduce并行计算,在大规模RDF数据图上优先搜索评分值高的本体子图,得到对应的查询结果子图,直到找到Top-k结果。接着,随着在线分析连续数据流的应用需求日益增多,数据处理从静态数据逐渐向流式动态数据转变,为了满足用户对RDF数据流实时查询的应用需求,本文提出了一种面向大规模RDF数据流的分布式实时搜索算法DKSSRS(Distributed Keyword Semantic Search over RDF Data Stream on Storm)。基于分布式流式计算框架Storm,实时地处理RDF数据流,设计分布式存储方案存储流式数据,存储时用时间戳区分历史数据和新增数据流。构建Storm实时查询拓扑任务,接收并处理实时过来的查询请求。并且建立查询缓存,复用历史查询结果,支持增量更新查询,完成高效地实时查询。最后,本文通过在基准测试数据集和真实数据集上进行对比实验,表明了DKSSO算法和DKSSRS算法相比现有的搜索方案,在搜索效率和搜索效果上都具有明显的优势。此外,本文还分别通过实验验证DKSSO算法和DKSSRS算法具有较好的可扩展性,且DKSSRS算法能够在分布式环境中对实时查询进行正确高效地处理。
其他文献
信息社会不断发展,随着智能手机和'互联网+'的深度融合与广泛运用,使移动应用层出不穷,微信被广泛使用,基于微信平台的应用开发也越来越热门。国内经济不断发展,大学
在应对健康挑战及建设健康中国背景下,如何将健康理念融入城市规划正成为我国规划学者关注的前沿问题之一。国际上已有探索表明,健康影响评估为规划师解决这一问题提供了一条
针对目前语义搜索过程中存在效率低、用户推荐误差大等问题,提出一种基于抽取规则和本体映射的语义搜索算法.首先根据用户语义搜索要求抽取语义中的元素和属性,解决数据利用
根据省委关于学习实践活动的部署要求和我厅学习实践活动的总体安排,1月6日,我厅召开领导班子学习实践科学发展观专题民主生活会。参加会议的有厅党组成员,厅执法监察局局长,副巡
针对航空发动机涡轮盘用高温合金因加工表面完整性差造成的疲劳寿命低等难题,论文以高温合金GH4169车削加工变质层材料的微观组织和物理力学性能为研究对象,探明切削加工变质
个性化是高等教育大众化发展到一定阶段的产物,也是各个大学在竞争的环境中获得生存和发展的必然选择。为了实现大学的个性化,日本政府和大学围绕着学生、教师、课程、资金实
在市场经济快速发展的过程中,工程建设行业在国民生活中占据着越来越重要的位置,直接影响着整体的经济效益和社会效益。借助BIM技术对工程造价管理进行控制,能够在节约成本的
研究生教育在我国的教育体系中属于最高层次的教育体系。随着我国进入高等教育大众化阶段,研究生队伍逐渐扩大,学位与研究生教育的教学和管理模式已经开始进入多元化的发展阶
目的研究远程胎儿监护系统对高危产妇妊娠的积极作用。方法选取2011年2月至2012年5月65例被诊断为高危妊娠的孕妇并在孕期36周实施远程胎儿监护的作为研究组,同时随机选取与上
七园居是由上海博风建筑设计事务所设计的一座山中旅舍。其设计是围绕骨架、功能、场地、体验逐渐展开的。通过并置形式语言和体验,可以初步论述关于"一眼看不透的形式"的价值