面向非结构化文本的水环境本体自动构建

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:oxen777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
水环境是自然环境系统中最为复杂的一部分,包含了海量的数据和信息。为了能够保证用户可以轻松地访问、共享和重用水环境领域的数据和信息,需要选用恰当的技术手段,对其进行有效的组织和整合。本体作为能够清晰和规范地描述领域概念及其之间相互关系的知识库已得到高度关注和应用。所以,本文引入本体论的方法,希望对水环境领域的大量信息进行有效管理。但现阶段本体大多采用手工构建或者半自动构建的方法,其间涉及多名领域专家的参与,耗时耗力、质量无法保证,且所构建的本体尚不能应用在水环境领域,通用性较差。所以,如何快速、高效地从水环境领域提取概念及其概念间的关系,并将其作为本体来表达领域知识,已成为一个迫切的需求。为了能够自动构建一个水环境本体,首先收集了大量水环境领域的知识文本集作为非结构化数据源,并采用自然语言处理技术将文本集转换为词。然后基于统计学的方法得到“词-文本矩阵”,并运用奇异值分解的方法将“词-文本矩阵”投影到一个低维空间,消除了词和文本之间的语义模糊度,将概念信息凸显出来,完成了概念获取。最后采用层次聚合聚类的算法完成了概念间语义关系的提取,通过计算概念两两间的距离,将距离最小的两个概念合并,直至合并成为一个最大的上位概念。这样,便达到了从非结构化文本中构建水环境本体的目的。本文设计并实现的面向非结构化文本的水环境本体自动构建系统,缩短了本体构建周期、节省了开支成本、避免了领域专家之间认识不一致而造成的分歧,从而也在一定程度上提高了所构建本体的质量,为水环境领域本体的自动构建提供了一定的参考价值。
其他文献
语言是是人类最重要的交流工具,是人类思维的有形载体和信息传递的主要方式,也是人类积累和保存知识的主要形式。长期以来,学者们对于西方符号语言进行了大量的研究工作,但是对于
随着无限维动力系统的研究的不断深入和发展,大量的科研工作者对非线性发展方程长时间性态的研究越来越关注与重视.而广义KdV方程及广义KdV-Burgers方程出现在许多物理模型中,
多自主体系统刻画了复杂系统的许多本质特征,关于该类系统的研究已成为系统控制领域的研究热点.本文从多自主体系统分布式协调中的两个基本问题——多自主体系统的可趋同性和
神经元在中枢神经系统处理信息的过程中有着非常重要的地位,神经元能够产生和传输信息,而这些过程有丰富的非线性特征.研究表明,单个神经元的不动点可能具有稳定性,而这种稳定性
永磁同步电机逐渐成为伺服电机的主流,永磁同步交流伺服系统在高速、高精、高加速度的运动和控制领域得到越来越广泛的应用。本课题来源是国家重大科技专项,IC涂胶显影设备专用伺服系统高速动态性能控制。矢量控制实现了电机定子电流励磁分量与转矩分量的解耦,但这仅实现了二者的静态解耦,不能解除其动态耦合关系。在高加减速过渡过程中,耦合影响加剧,造成电磁转矩波动,降低系统对加速度的控制精度,不能满足现代装备制造业
本论文研究了一维三峰映射符号动力学中的等拓扑熵性的保持与破坏问题。通过拓扑熵的数值计算,对第一类和第二类等拓扑熵不变性进行了研究。结果表明,在三峰映射中,结合星花积仍
在能源危机、环境污染的双重背景下,风电和电动汽车均得到了迅速发展。然而风电具有的随机性、波动性等特点,使得大规模风电并网将对电力系统安全稳定带来严重挑战。尽管电动汽车具备可充可放的运行特性,一定程度上可实现与风电的协调互补运行,但其本质仍是电力负荷,受车主主观意愿、天气、路况等多方面因素影响,规模化电动汽车并网将增大电网调度运行的难度。为应对大规模风电和电动汽车并网带来的不确定性的增长,亟需挖掘新
本文在非广延统计理论框架下,研究了分解近似法在黑体辐射应用中的相关问题。从分解近似法在黑体辐射中的应用出发,探讨了分解近似解析技巧,通过理论分析和数值计算,指出了该技巧
本文在已有模型基础上引入OFF型视觉通路,建立了一个具有生理基础的视网膜神经网络模型,模拟了视网膜对不同视觉对象的处理过程。模拟结果显示,视网膜的输出单元对不同刺激图形
在线性定常系统中,系统稳定性和响应的快慢完全取决于系统的极点,如果系统状态矩阵的特征值对其元素的变化不敏感,那么该系统就具有良好的稳定性和实用价值。本文基于正规矩