领域驱动网络资源获取

来源 :天津大学 | 被引量 : 0次 | 上传用户:satan0wei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前互联网资源形式和内容多样,都是对客观世界事物的反映,也是资源生产者如网站编辑等在自身对客观世界认识基础上构建的概念世界的体现。同时,对于同一事物,不同的人有不同的理解和认识,因此描述的形式也不一致。而另一方面,资源的获取者试图从不完整的各种网络资源中得到关于某一事物的所有信息,因此,二者是一个互逆的过程。在传统的HTML页面基础上发展起来的不能直接通过分析网页源码中URL得到而需要通过填写表单提交查询后才能得到的Deep Web内容所占比例越来越大,如何进行有效的获取是目前研究的重点。然而为了最大限度的利用已有搜索引擎基础设施,之前的研究主要集中在GET方法提交的表单。同时,对于通用搜索引擎来说,数据之间是相互独立的,随着垂直搜索引擎的发展,一个领域内相关的数据都被整合起来,进行综合展示。本文通过领域本体构建领域模型,在现有知识库基础上通过元搜索获得DeepWeb内容表单(包括GET和POST提交方法)入口,利用算法进行表单字段的选取和内容的填充后提交查询表单从而获取各种互联网数据,并通过网络资源模型和要素与本体匹配算法进行特定要素的提取,从而将半结构化的数据形成结构化的数据表。同时根据本体概念之间的关系,将同一领域的不同数据进行关联,从而使得数据之间不再孤立,并且形成对客观世界尽可能详细的描述。以应急为例,因为该领域中存在的各种数据可以通过地理坐标信息进行精确关联,通过对网络中地名有关的应急信息如应急预案、应急案例、应急专家等内容和人文地理信息如行政区划、邮编等的获取和关联,可以构建一个相对完整的应急领域数据集。本文随后在理论研究基础上,构建领域驱动网络资源获取原型系统检验理论的可行性和正确性,并设计数值指标衡量算法的效率和系统性能。最后,总结本文所做工作,并提出下一步工作计划。
其他文献
H.264是目前国际上新一代的主流视频压缩标准,与先前的标准相比,它采用了许多新的技术以提高编码效率,应用领域更加宽广。然而,高编码效率是以提高运算的复杂度为代价的,这严
随着计算机科学技术和视频编码技术的发展,针对不同的数字视频应用,产生了很多视频编码方案和标准。而多种视频压缩标准的共存和网络的异构性导致了视频设备和网络传输出现兼
垃圾邮件已成为互联网用户的烦恼之一,已经严重干扰了人们的正常生活,浪费用户的时间、精力甚至造成了信息安全隐患。  人们已经研究了多种反垃圾邮件技术,基于规则的垃圾邮件
壁画作为人类最古老的绘画形式之一,其丰富多彩的内容,使其成为政治史、文化史等学科的重要研究资料。但由于壁画为不可移动文物,其正在因为风化、风蚀、雨蚀、褪色等病害逐
多媒体技术和数字网络通讯技术飞速发展,使得信息的发布和传输实现了数字化,但是数字媒体信息极易被仿制、处理、公开和传播,引发了数字信息传输的安全问题和数字信息的真实
随着Internet技术的发展,越来越多的应用采用XML作为信息表示和数据交换的标准。在对XML数据查询处理的过程中,用户查询意图通常是不明确的或不完整的,这就使得查询具有一定
学位
真实感是很多CG电影与动画作品的主要追求,真实感材质是真实感渲染中最重要的组成部分之一。材质决定一个物体的颜色,透明度,粗糙度等属性。经过多年的研究,很多复杂的材质模
随着信息技术的发展,业务流程的范围也从部门和组织内部扩展到跨越部门,甚至跨越企业的边界,业务流程呈现出复杂、多变的特点。面向对象Petri网(Object-Oriented Petri Nets)
目前,许多重要领域都涉及到不确定数据的管理,如:数据集成,无线传感器网络,金融监控,趋势预测以及移动对象的管理。由于固有以及人为的多方面原因,这些领域的数据具有不可避免