基于海洋微塑料的知识图谱构建研究

来源 :上海海洋大学 | 被引量 : 0次 | 上传用户:tadpoleFLY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海洋占据了地球的绝大部分,地球一半以上的氧气都由生活在海洋中的浮游植物所产生,且海洋作为地球食物链不可分割的重要一环,为全球数以亿计的人口提供了赖以生存的食物资源,还有逾千万人依靠海洋渔业和旅游业就业,海洋资源的健康与人类生存息息相关。目前海洋塑料污染虽然危害大,但各国已经在推行积极的措施用以解决相关问题,而海洋微塑料并未引起足够的重视。由于微塑料肉眼无法观测,且不受体积的限制,因此污染范围不仅遍及内地水域、湖泊以及深海,甚至海洋食用品中还能被检测出微塑料污染物的存在,这种难以被察觉的污染对海洋浮游植物以及人类生命健康都造成了无法估量的危害。中共十八大以来,中共中央高度重视海洋强国的建设,更强调了海洋环境健康的重要性和发展智能海洋的必要性,因此采用科学的方法分析海洋微塑料污染能够对海洋生态风险评估起到重要作用。近年来,海洋微塑料污染逐渐引起了各国学者的注意,但相关研究多集中于成分分析与调查研究方面,而且当前针对海洋中微塑料的分析方法并不完善,分析结论也多以新闻、文献等较为离散的信息形式呈现。这种对于待分析区域的调研工作虽然能够直接反映出某地的微塑料详细信息,但耗时耗力,进展缓慢。因此如何将海洋微塑料相关的离散化信息转变为可被直接利用的知识数据成为当前领域亟需解决的问题。知识图谱通过将离散的数据链接起来形成网状知识结构,不仅能够帮助研究者发现数据之间的隐含关系,还可以实现可视化的表达,有助于研究者的进一步分析。基于此,本文将知识图谱与海洋微塑料研究领域相结合,通过模式层与数据层两个方面探究了海洋微塑料知识图谱构建工作,总结如下:(1)针对知识图谱模式层的构建工作,本文进行了本体、实体类型以及关系类型的定义。本体定义中,本文选择中国知网、维普数据、万方数据以及Web Of Science等代表性的文献数据库作为主要数据来源,并获取海洋微塑料相关文献的文本摘要。为高效获取文本中与海洋微塑料相关的实体名称,从而构建海洋微塑料本体,本文提出TF-IDF-PMI方法。首先将摘要分词后选用词频-逆文档概率与点互信息结合的方法进行海洋微塑料相关词汇的频率统计,再将微塑料领域研究专家的理论概述作为重要判断依据来筛选高频词汇,从而生成海洋微塑料本体。通过已定义的本体分支,进一步确定了海洋微塑料相关的实体类型,以及各实体间存在的关系类型。(2)针对知识图谱数据层的构建工作,本文提出SMMNER实体识别模型,对数据集进行海洋微塑料相关实体的识别。由于海洋微塑料预料库规模量较小,为加快模型训练速度,提高模型识别能力,本文提出SMMNER模型,选取轻量级的预处理模型ALBERT进行句子文本的嵌入表示,采用双向长短期记忆网络与条件随机场学习特征表示以及生成实体预测标签。由于人工标注耗时耗力,不利于大量数据的标注,因此本文提出一种基于自训练算法的半监督海洋微塑料实体抽取方法,利用该模型进行知识实体的抽取,构成海洋微塑料知识图谱的数据层。(3)根据模式层与数据层进行海洋微塑料知识图谱的构建,流程分为数据获取阶段、数据处理阶段、知识处理阶段以及图谱可视化及应用阶段。在数据获取阶段中,通过合并翻译后的英文文献与中文文献构成原始数据;在数据处理阶段中,通过数据增强、去重等操作对原始数据进行预处理后生成数据集,并进行命名实体识别处理以及实体间关系定义来获取实体与实体间的关联关系;知识处理阶段将获取的两两实体及其关系组成(头实体-关系-尾实体)形式的三元组,并对重复的头实体或尾实体进行融合操作,最终形成海洋微塑料知识图谱,并选用Neo4j图数据库进行图数据的存储;在图谱可视化及应用阶段中,本文将Flask框架与ECharts工具结合,进行应用平台的搭建以及图谱数据的动态展示。通过构建海洋微塑料知识图谱,能够将离散的信息关联起来,对于海洋微塑料来源分析、政策制定、学术研究等起到关键推动作用,有利于实现海洋生态风险的高效评估及防范。
其他文献
随着多媒体技术的发展,视频图像逐渐成为现代文化传播的主流,如何评估视频和图像的质量是一个重要的课题。与此同时,面向不同领域的图像和视频质量评价方法不断发展,其中针对水下场景的质量评价方法逐渐受到学者的重视。水下视频系统在海洋环境勘测和调查、海洋科学研究、海洋工程等方面扮演越来越重要的角色,水下视频质量评价是保证水下视频可用性的基础。由于水介质中光线散射、衰减、水流干扰等造成的特殊性,传统大气环境下
学位
<正>老年人群糖尿病患病率高,常合并多种基础疾病或代谢异常,多重用药且对药物不良反应的耐受性差,心脑血管死亡和慢性肾脏病(CKD)发生风险增加。因此,在选择降糖药物时需综合评估病人病情,加强用药指导及治疗后的监测。已有多项研究证实,钠葡萄糖协同转运蛋白-2抑制剂(sodium-glucose cotransporter-2 inhibitor, SGLT-2i)除具有良好的降糖作用外,还具有确切的
期刊
<正>普政发〔2023〕14号各县(区)人民政府,市直各委、办、局:现将《普洱市“十四五”制造业和新兴产业发展规划》印发给你们,请认真贯彻执行。2023年2月10日(此件公开发布)普洱市“十四五”制造业和新兴产业发展规划前言“十四五”时期,是衔接“两个一百年”奋斗目标,开启全面建设社会主义现代化国家新征程的重要时期,也是普洱市强力推动制造业和新兴产业发展,打造高质量发展新引擎的关键时期。“十四五”
期刊
深度神经网络(Deep Neural Networks,DNNs)作为机器学习领域中的技术之一,被广泛地应用于计算机视觉、自然语言处理等领域。然而,蓬勃发展的深度学习技术使数据安全与隐私面临更加严峻的挑战。在推理阶段,用户不愿意泄露个人隐私数据,模型拥有者不愿意与他人共享其花费高昂代价训练获得的模型等;在训练阶段,一个高精度的DNNs模型训练往往需要大量的高质量数据作为支撑等。除此之外,随着大数据
学位
深刻理解物理海洋特性是推动海洋数字化、逐步建设成为海洋强国的关键,是研究海洋环境与全球气候变化交互的基础。海洋中尺度涡是海洋上的一种重要现象,因其自转以及水平移动携带大量的物质能量,从而成为不同区域间物质交换的重要媒介。因此,研究分析中尺度涡轨迹是挖掘探索其背后物理海洋特性的关键,探讨区域间海洋中尺度涡轨迹的异同性,有利于了解其演变规律和形成机制。挖掘中尺度涡轨迹的聚集移动模式和探讨其与黑潮侵入前
学位
近年来随着海洋勘测手段的不断更新与海洋信息化的不断发展,各个海洋数据收集实体积累了大量的海洋数据,这些数据对于航运、渔业、海洋资源挖掘等领域有着巨大的经济价值。但目前这些海洋数据的经济价值却无法完全发挥出来,主要原因有海洋数据共享实体的利益与机制不清,共享技术的可靠便捷性不高,海洋数据共享平台的易用性和高效性不足等。以上存在的种种问题使得海洋数据的巨大经济价值无法释放,显然无法满足“海洋强国”的战
学位
中国是水产养殖大国,水产养殖量在世界水产养殖总量中占很大比重。但目前中国水产养殖中鱼种识别主要还是依靠人工,人工鱼种识别耗时费力并且容易判断错误,严重限制了水产养殖业的发展,此时一个快速准确的鱼类目标检测系统就尤为重要。传统的鱼类目标检测方法是人工提取鱼类的形状、大小、颜色、纹理等特征,然后把特征向量输入到分类器中进行分类,但是传统方法使用的特征较少且很难对数据量大的数据集进行特征提取,存在较大的
学位
随着信息时代的到来,推荐系统变得越来越重要。它可以帮助用户在诸多领域,例如网络搜索、电子商务等挑选用户实际需要的信息,有效解决信息过载问题。传统推荐系统主要基于长期且静态的用户评分矩阵,忽略了用户与项目交互的时间次序。基于会话推荐的算法可以有效解决此类问题。会话表示由同一用户在短期内交互的项目所构成的有序序列。基于图神经网络的会话推荐模型通过将会话序列数据建模为图形结构获取会话中项目的复杂转换关系
学位
长鳍金枪鱼作为高度洄游喜集群的大洋中上层鱼类,广泛分布于南太平洋区域,因其产量较高,营养价值丰富,已成为南太平洋金枪鱼延绳钓的主要捕捞对象之一。如何对南太平洋长鳍金枪鱼渔场做出合理有效的预报,已成为当下远洋渔业捕捞领域中的研究热点之一。由于传统渔场预报方法模型结构简单,可学习参数量少,面对规模庞大,复杂多维的海洋大数据往往拟合效果较差,因此其预测精度较低,对渔业的作业指导较为局限。而深度学习可以挖
学位
全球导航卫星系统反射信号(GNSS-R)是微波遥感的一个迅速发展的领域。该技术利用卫星的直射信号与从散射表面反射的卫星信号进行相关来推测陆地和海洋的物理信息,具有成本低、大量信号源等特点。海洋表面高度作为海洋科学中重要的物理量,其测量方法是一个重要的课题。随着Tech Demo Sat-1(TDS-1)和旋风全球导航卫星系统(CYGNSS)等技术示范卫星的发射,星载GNSS-R技术以其具有全天候、
学位