地质文本中油气藏特征提取及成藏知识图谱构建研究

来源 :中国地质大学 | 被引量 : 0次 | 上传用户:hsb66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国油气勘探理论及技术的日益发展,描述油气藏地质环境、成藏因素、含油层位等特征的各类地质资料迅速积累,且体量不断增大,给资料管理和信息化服务带来挑战。油气领域的资料种类繁多,其中多数为是非结构化数据如调查报告、生产记录和研究文献等,多以文档形式管理,可供查询的文档特征不多且缺少知识描述与关联。仅通过关键词匹配和粗粒度主题相似查找,无法快速精准地从繁杂的资料中获取信息,很难满足海量地质文本的知识查询需要,导致资料利用率较低,大量蕴含于非结构化文本中的知识不能得到全面有效的展现。从信息技术发展和我国数字油田建设趋势来看,油气地质资料服务正由数据服务向知识服务转变。知识图谱技术的出现给油气地质资料知识化服务带来了契机。通过自动抽取文档资料中蕴含信息,形成结构化的知识,使得为用户提供高效的知识化服务成为可能。本文围绕地质文本中的油气藏特征,结合油气地质资料的特点,对资料中的知识片段进行重新组织并形成知识元。通过提取文本知识元中油气藏特征实体、属性及关系等特征信息,丰富了当前的资料检索模式。采用由底向上的方法逐步构建油气成藏知识图谱,并将其应用于油气地质资料的知识检索服务。通过文献主题筛选和知识关联查询等应用功能,提高了使用者对资料信息的获取效率,并辅助其发现资料蕴含的隐式关联,从而有助于提高石油地质学研究的准确度和油气勘探决策的可信度。本文的主要研究内容如下:(1)基于层次主题的油气地质文本知识元提取在分析油气地质资料结构及主题层次的基础上,研究地质文本中知识元的提取。研究利用文本主题分析技术进行文本段落的主题特征获取。顾及油气领域文本主题较强的层次性和聚集性,研究利用领域内的专业词汇对层次主题模型进行约束,以改善主题提取效果。同时,结合油气地质资料结构与实际应用需求,研究油气藏特征知识元的描述。论文提出了基于局部特征算法联合策略和动态规划策略的主题知识元提取方法;提出了基于图表标题-段落主题相似度和图表指示词匹配的图表知识元提取方法,实现地质文本知识元的提取。(2)基于领域知识和机器学习的油气藏特征提取顾及油气地质资料主题知识的对应性和相关性,论文以油气领域本体、专业词汇表、关系数据库元数据等先验知识为辅助,研究地质文本中的油气藏特征信息提取。针对油气藏特征中重叠实体及重叠关系的提取问题,研究利用领域本体在概念及关系语义描述上的优势,提出基于词表特征加强的实体识别模型与基于改进标签策略的关系提取模型,实现文本知识元中的油气藏特征实体、属性及关系等特征信息的提取。(3)基于多特征关联的油气成藏知识图谱构建针对已有模型在知识表示和关联上的不足,研究建立基于多特征的油气藏知识元间的关联。论文提出了基于主题扩展的三元组知识表示和向量化方法,用于解决油气藏知识表示问题。接着,论文研究了高维空间中的知识元多特征关联方法,用于解决油气藏知识元的抽象表达和关联问题。最后,论文将所构建的油气成藏知识图谱应用于知识服务系统,提供油气藏知识检索及关联服务,验证了论文所提方法的适应性和实用性。
其他文献
地震滑坡往往会造成道路损毁、河流堵塞、房屋掩埋、桥梁坍塌,导致应急救援与现场调查无法顺利进行,这会严重影响生命救援和地震灾情评估,因此快速准确地获取地震滑坡的位置、分布范围、规模大小与掩埋建筑物、道路、植被等相关信息对指导地震应急救援、灾情评估和灾后重建等工作具有重要意义。随着卫星遥感和空间信息技术的飞速发展,遥感影像数据具备覆盖范围广、获取时间短、成本低和数据量大等特点,可为全震区的地震滑坡识别
中国大陆的强震受控于活动地块的运动和变形。活动地块边界带上集中了中国大陆的主要构造变形和强震,块体内部分布少数较低震级的强震。活动地块的运动与变形导致了中国大陆强震分布广泛、西强东弱、动静交替和分块成带的特征。研究活动地块边界带上古地震和历史强震的活动特征与机制对揭示中国大陆内部强震的时空演化模式与机制、进行地震危险性分析具有重要意义。鄂尔多斯活动地块西缘边界带位于南北地震带北段,是鄂尔多斯活动地
近年来,随着大地测量技术的不断发展及其在地震领域的广泛应用,结合新兴InSAR技术进行断裂带同震-震后-震间不同阶段的运动变形特征,同震破裂模型,震后变形机制及震间长期应力加载的动力学过程等科学问题的研究成为世界科学家关注的焦点。被誉为“第三极”的青藏高原是世界上地壳活动性最强烈的陆陆碰撞带,在青藏高原周边及内部形成一系列大型逆冲及走滑活动断裂带,孕育了一系列强震事件,特别是在青藏高原南缘印度板块
长期以来,地震热红外异常的研究,尤其是基于卫星遥感的地震热红外异常研究一直受到地震界的高度关注。与此同时,卫星热红外地震监测手段的研发以及相关系统的建设也为我国地震相关部门所高度重视。然而,由于受到时间、地域以及各种外部因素的影响,地震热红外异常的现象在个例之间存在很大程度的差异性,数据关系中存在大量的随机因素,仅仅进行一些个例研究很难避免偏差。因此,必须对大规模的、连续的历史数据进行时间、空间综
优化营商环境成为当前我国市场经济改革的重要组成内容,通过分析我国营商环境的特点和短板进一步了解其现状。标准化是加强营商环境各主体、各要素有机融合、系统发展的有力工具,本文从需求分析、构建原则、框架研究与设计等方面思考优化营商环境标准体系,供相关单位参考。
学位
马克思、恩格斯从《德法年鉴》时期开始探索人类的解放,明确把新哲学作为人类解放的"头脑",把无产阶级作为人类解放的"心脏",从而为马克思主义党建理论奠定了基础,《共产党宣言》则标志着马克思主义党建理论的形成。《共产党宣言》确定了马克思主义是共产主义政党建设的指导思想;明确了共产主义政党的本质属性是"为绝大多数人谋利益"、是工人政党中"最坚决的、始终起推动作用的"先进性政党;指明了共产主义政党"最近目
网络流行语是社会意识的表现形式,是意识形态引领的主要载体。网络流行语的产生、传播对主流意识形态话语起着建构、消解两个方面的作用。网络流行语对主流意识形态话语的建构主要体现在流行语的创新性建构主流意识形态话语的先进性、网络流行语的对话性建构主流意识形态话语的亲民性、网络流行语的大众性建构主流意识形态话语的普及性、网络流行语的现实性建构主流意识形态话语的合理性等四个维度。在互联网时代,要利用网络流行语
广西河池市大化县和田玉是我国近期出现的具有一定开采规模和市场影响力的品种,主要颜色有白、灰白、浅绿、暗绿、浅黄色和黑色等,以及市场特称的“花斑玉”品种。本文对该矿区所产和田玉样品进行了现场考察、样品采集、肉眼鉴别、宝石学性质、显微结构特征、光谱学特征、矿物组成以及化学成分的系统研究,应用了宝石学常规测试、傅里叶红外光谱、激光拉曼光谱、X射线粉晶衍射、扫描电子显微镜和激光剥蚀等离子体质谱仪等现代技术
黄铁矿是砂岩型铀矿床中最常见的还原介质之一,对铀具有吸附与还原作用,可有效记录铀成矿的地球化学过程。因此,黄铁矿矿物学和地球化学特征的详细分析对于阐明铀富集机理具有重要作用。然而,目前对砂岩中黄铁矿复杂的发育特征缺少系统性调查研究,且不同地区地质背景的差异导致了黄铁矿多元化的成因机制。鄂尔多斯盆地北部赋存于直罗组中的古砂岩型铀矿床,黄铁矿分布广泛,与铀矿物紧密共生,为其多阶段形成过程与演化规律的研