Web海洋数据抓取及存储系统的研究与实现

被引量 : 0次 | 上传用户:jayzhoujian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过长年累月的信息调查和资料收集,各国的相关研究机构已经保存了大量的海洋科学数据及相关信息。随着互联网的普及,这些机构也已经把相关海洋数据信息发布在了Web上供用户查询下载。但目前还没有针对此领域的信息检索和数据抓取工具,因此难以自动、高效地大规模获取Web海洋数据。另外,海洋数据通常以科学文本数据的形式发布,这种形式的数据是半结构化的,需要额外的格式说明等元数据信息才能理解其含意。这种形式的数据难以进行直接操作,只有将其存储到关系数据库中才能得到有效的查询和分析。针对以上的背景情况,本文构建了一个面向Web海洋数据进行发现、抓取和存储工作的系统框架。该框架将整个系统划分成三大模块,分别完成目标网站检索、海洋数据抓取和数据存储的相关工作。对于目标网站的检索,本文构建了海洋科学数据领域的关键词库,并在此基础上提出了本领域的主题相关度评价算法,从而通过调用搜索引擎并对返回结果进行主题过滤的方式检索到了满足需求的站点地址。对于海洋科学数据文件的下载,本文设计了一个专用的网页文件抓取器并提出了海洋数据元数据文件的提取算法,从而能够有效的抓取到海洋数据文件并进行正确的解析。对于海洋文本数据的存储,本文设计并建立了科学文本数据到关系数据库数据之间的映射模型,从而将存放在文本文件中的海洋数据正确的加载到了海洋关系数据库中,让这些数据得到了有效的利用。实际应用表明,本文所设计并实现的系统取得了较好的效果,能够满足构建海洋数据仓库的相关研究中对海量数据的获取需求。同时本系统也有着良好的交互性,并具有一定的通用性和可扩展性。
其他文献
中药资源是新型药物先导分子的重要源泉,中药化学成分的研究是从中药资源中发现先导性分子的前提和保证.《中华人民共和国药典》2010版中收载了620种中药,其中多数中药的化学
会议
目的分析对血友病性膝关节炎患者给予凝血因子Ⅷ替代治疗与按需治疗的临床疗效。方法选取2014年1月至2018年6月本院收治90例血友病性膝关节炎患者进行观察,按照凝血因子Ⅷ不
目的探究PDCA循环用于降低骨科手术Ⅰ类切口感染率的临床效果。方法于我院骨科应用PDCA循环管理,统计我院应用PDCA管理前(2017年1月~2017年12月)及管理后(2018年1月~2018年12
创建全国文明城区是一项复杂的社会管理系统工程,北京市朝阳区卫生监督所在北京朝阳区创建全国文明城区的过程中主要承担二次供水、餐饮单位、公共场所单位、校园周边整治、
企业的战略决策,主要是指决定企业的长期目标和确定能实现该目标的战略。战略决策首先包括:规定利润目标和增长目标、确定想要开拓的市场及打入该市场的产品、把各种产品和
最近在新疆哈密发现了可规模开采的宝石级绿松石矿床。采用X射线粉晶衍射仪、激光剥蚀电感耦合等离子体质谱仪、扫描电子显微镜、傅里叶变换红外光谱仪、拉曼光谱仪、紫外-可
本报告提出几个关于碳排放问题的新观点,并据此得出解决环境二氧化碳气体积累的新思路。同时,从碳排放的来源方面建议改变传统观念,大幅度减少直接碳排放,实现系统的资源化高
本文研究将自适应技术运用于电子对抗领域,为解决电子对抗装备的自适应对抗问题奠定技术基础。
目的:分析儿童原发性免疫缺陷病(Primary immunodeficiency disease, PID)的临床特点及基因诊断,增强儿科医师对该类疾病的认识,以早期识别、诊断及治疗PID,挽救患者生命,提高
小鹅瘟(Gosling plague, GP)是由鹅细小病毒(Goose Parvovirus, GPV)引起的雏鹅和雏番鸭的一种急性或亚急性、败血性传染病,主要侵害3-20日龄的雏鹅,具有病程短促、传染性强