旅游数据关联化及语义相似度计算并行化研究与实现

来源 :郑州大学 | 被引量 : 0次 | 上传用户:pan07631014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,网络上的数据呈指数级的增加,由于数据的自治性、异构性和分布性特点,造成“信息孤岛”,数据的复用和共享大大地下降。关联数据的出现解决了这一难题。旅游与当今人们的生活息息相关,旅游信息化发展水平是衡量现代旅游产业的重要标志。旅游信息系统往往包含点评、图片、视频,还要和周边的住宿、吃饭、交通、购物、娱乐等信息联系在一起,过去的旅游网站采用万维网技术,往往就是很多html组合而成,网站既不能被计算机理解,人们也无法通过它进行很好的互动。由于语义网的发展,计算机变得更加智能化,大多数的资源具有开放性,通过对旅游服务信息采集、处理和利用,并与其它数据相关联,现代旅游能够消除数据竖井,实现跨区域、跨行业、跨部门的资源共享,最大限度地提升旅游信息资源的价值。领域本体的构建是创建关联数据的基础。通过查阅国家相关标准规范,分析实际旅游数据并在领域专家指导下,论文按照定义类、定义属性、创建实例、本体化实现四个步骤,构建旅游本体描述旅游领域的概念。关联数据语义发现的核心是关联数据语义相似度计算。本文针对关联旅游资源数据集中的语义相似度计算效率进行研究。根据建立的旅游本体,使用JENA将本体的OWL文件转换成RDF三元组,并解析实现关联,分析研究3种经典RDF相似度计算方法,采用Map Reduce并行化计算框架,设计出关联数据语义相似度的并行化计算方法,以提高大规模关联数据语义发现效率。最后,在Hadoop平台上构建集群,对已建立的旅游本体中解析出的RDF数据进行实验。实验结果表明,Hadoop集群上实现的并行化相似度算法与传统平台的实现相比,提高了对海量数据的处理能力和效率,具有较好的加速比和良好的扩展性,旅游本体的构建也提高了数据的共享与复用价值,可以更广泛地为用户服务。
其他文献
随着分子生物学和全基因组测序技术的快速发展,产生了大量的基因数据,这使得对基因家族分子进化的研究成为可能。重建基因家族进化史对解决许多基本生物学问题起着非常关键的
概念格是形式概念分析所用到的核心数据结构,已经越来越广泛地被应用到人工智能或者是数据分析等诸多领域之中。而一般的形式概念分析是基于精确的形式背景,但是在现实世界中
RDF数据查询作为从海量RDF数据中发现有用知识的技术,在数据管理领域占有重要地位。然而,现有的数据查询研究仍存在一些缺陷:传统方法主要集中在基于关键字的查询,而忽视了关
本文从分析火力发电厂动力用煤现状入手,在详细研究动力配煤技术与决策支持系统理论的基础上,提出把决策支持系统引入到动力配煤领域。以动力配煤技术和决策支持系统技术为支撑
随着身份识别重要性的不断提高,指纹识别的应用领域日益广泛:电脑识别、信用卡识别、个人通讯设备识别、考勤、考试、政府的福利发放等方面都需要用到指纹识别。指纹识别是一
语义检索作为一种新的信息检索技术,它可以在知识理解和知识推理的基础上实现对信息资源的准确、全面的检索。对语义检索的研究不仅仅在信息管理领域,还包括人工智能、互联网等
反求工程中,由三维测距仪获取的点云常常存在空洞,给后期的几何建模工作带来很大的困难。本文在已有的边界提取与曲面重建方法的基础上,提出了一种基于点模型的点云空洞检测与修
近年来,Web服务以其协议标准化、低耦合以及平台无关性的优点,在应用集成方面得到了迅猛的发展。随之而来的问题是,如何在海量的Web服务中找到合适的服务,即服务发现,已经成为Web
企业信息门户作为一种信息和应用整合模式,能够有效地整合企业的信息资源和应用系统。它为企业的员工、客户、合作伙伴等提供了一个基于Web的统一平台,在这个平台上,企业门户
语音识别主要指让机器听懂人的语言,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别中,端点检测占有非常重要的地位。在低信噪比环境下,