论文部分内容阅读
随着信息时代的到来,网络上的数据呈指数级的增加,由于数据的自治性、异构性和分布性特点,造成“信息孤岛”,数据的复用和共享大大地下降。关联数据的出现解决了这一难题。旅游与当今人们的生活息息相关,旅游信息化发展水平是衡量现代旅游产业的重要标志。旅游信息系统往往包含点评、图片、视频,还要和周边的住宿、吃饭、交通、购物、娱乐等信息联系在一起,过去的旅游网站采用万维网技术,往往就是很多html组合而成,网站既不能被计算机理解,人们也无法通过它进行很好的互动。由于语义网的发展,计算机变得更加智能化,大多数的资源具有开放性,通过对旅游服务信息采集、处理和利用,并与其它数据相关联,现代旅游能够消除数据竖井,实现跨区域、跨行业、跨部门的资源共享,最大限度地提升旅游信息资源的价值。领域本体的构建是创建关联数据的基础。通过查阅国家相关标准规范,分析实际旅游数据并在领域专家指导下,论文按照定义类、定义属性、创建实例、本体化实现四个步骤,构建旅游本体描述旅游领域的概念。关联数据语义发现的核心是关联数据语义相似度计算。本文针对关联旅游资源数据集中的语义相似度计算效率进行研究。根据建立的旅游本体,使用JENA将本体的OWL文件转换成RDF三元组,并解析实现关联,分析研究3种经典RDF相似度计算方法,采用Map Reduce并行化计算框架,设计出关联数据语义相似度的并行化计算方法,以提高大规模关联数据语义发现效率。最后,在Hadoop平台上构建集群,对已建立的旅游本体中解析出的RDF数据进行实验。实验结果表明,Hadoop集群上实现的并行化相似度算法与传统平台的实现相比,提高了对海量数据的处理能力和效率,具有较好的加速比和良好的扩展性,旅游本体的构建也提高了数据的共享与复用价值,可以更广泛地为用户服务。