事件本体构建中若干关键技术的研究

来源 :上海大学 | 被引量 : 7次 | 上传用户:gaolch014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机领域,本体定义为“共享概念模型的明确的形式化规范说明”,其在自然语言处理、文本挖掘等人工智能领域发挥着越来越重要的作用。传统本体模型以概念作为知识单元,通过描述事物之间分类关系来展现客观世界中事物的静态规律,但缺乏描述事物之间复杂动态变化过程的能力。事件本体以事件作为基本的知识表示单元,以格结构作为其体系结构,更加符合现实世界中事物的动态变化规律;它不仅可以克服传统本体存在的技术瓶颈,同时为实现面向事件的、动态的自然语言处理打下坚实的基础;事件本体构建的相关研究为自然语言处理技术的发展提供了全新的思路,具有重要的科研和应用价值。与现有本体模型相比,事件本体模型具有显著特点:该模型以事件类作为基本知识单元,更适合表示动态知识。模型以事件类的层次结构为主线组织知识,使知识结构更加清晰,并且降低了事件类间非分类关系的繁杂性。所以事件本体能够更好地表示自然语言文本中的动态语义知识,有利于计算机分析理解文本,为实现基于事件的自然语言处理系统打下坚实的基础。本文针对事件本体构建过程中存在的关键问题进行了详细的分析,并且给出了具体的解决方案,相关实验充分证明了所提出方法的可行性。本文的主要内容和创新点包括:(1)基于深度学习的事件识别:事件自动识别是构建事件本体的重要基础。本文结合机器学习领域的热门研究技术深度学习方法,将事件的识别转化为特征向量的分类问题,通过对语料中的句子进行分词并根据标注类型给词分类,在将这些分词通过特征分析并转化为特征向量,最后由深度信念网络对特征向量进行分类识别。此外,针对现有的深度信念网络无监督的学习方式,本文提出了两种改进型的深度信念网络(混合监督以及动态监督)。其中,混合监督的深度信念网络,通过在每层受限玻尔兹曼机(RBM)无监督训练后加入有监督的微调过程,进而优化网络参数,提高识别效果。而动态监督的深度信念网络,通过评估每层RBM的训效果来决定是否增加有监督的微调过程。以上两种网络均提高了事件识别效果,同时系统的稳定性也有所增加。本文提出的事件识别方法比现有的方法能够取得更好的识别效果,同时可以扩展到其他事件要素识别,为实现基于深度学习的自动标注做了重要的尝试。同时该研究还可以辅助语料的半自动标注工作、加速语料库的建设,为构建大规模面向事件的语料库提供技术支持。(2)形式事件分析:事件本体以格结构作为基本知识体系,现有的格结构主要针对静态概念以及属性来构建偏序结构,但是事件有其动态特性且事件要素具有异构属性。本文分析论证了事件中相关要素,针对要素的知识特点,构建了不同要素的形式背景描述方式。动作要素由程度及方向构成一个二元属性集合来描述。参与者要素同样由事件的发起者和接收者构成二元属性集合。时间要素由区间值来描述。而环境要素、断言要素和语言表现则通过一阶谓词的形式进行描述,从而形成异构的形式事件背景。为了能够由形式事件背景自动的生成事件格,本文设计了一种渐进式的事件格生成算法,其核心思想是在事件格中插入形式事件时,只遍历最近生成的事件格节点,从而极大减少搜索空间。同时在确定新生成事件格节点的上下文关系时,同样遍历最近生成的事件格节点。大量的实验证明,该算法能够有效的实现异构事件格的自动生成,同时比现有的格生成算法有时间上的优势。(3)基于事件本体的事件分类关系推理:逻辑推理能力是事件本体功能的核心体现,推理能力的强弱直接影响着本体的可用性及可扩展性。为克服现有描述语言(SROIQ)动态表示能力的不足,本文提出了事件本体描述语言(EO-SROIQ),通过其构建了事件术语集和事件断言集,两者共同组成事件本体知识库EO ALCK-,作为事件本体的推理基础。事件分类关系推理中我们首先通过实例检测确定事件(实例)所属的事件类,再由事件类之间关系判断事件间的分类关系。事件实例检测过程中,本文结合扩展Tableau算法对事件的对象及环境要素进行类别(概念)判断,对动作以及断言要素检测其基于EO ALCK-的一致性。此外,我们还给出了事件分类关系推理算法的Java实现,从理论和实证两方面验证了算法的可判定性、完备性以及合理性。
其他文献
目前,我国的公众移动通信发展一日千里,移动用户数量剧增,网络规模不断扩大,基站的频率复用度增加,同时基站在通信过程中受到内部(自身设备信号)或外部(非法信号)因素造成的
奥运会,全人类的节日。2006年初的隆冬,奥运圣火降临意大利名城——都灵(Torino)。而再过短短的两年,2008北京奥运会将在万众期盼中徐徐拉开大幕。
本文将高温瞬时α化技术代替传统蒸煮工艺用于大米的处理。通过对大米在高温瞬时α化处理过程中大米水分含量、淀粉α化率、酶促降解氨基氮含量和总脂肪含量的测定,初步得到了
我是一个很普通的人。我出生在农村的一个教育世家。一个人、一个民族、一个国家,只要不畏艰险,勇于攀登,一定能达到光辉的顶点。我绝不辜负人民的期望,一定要以人民给我的信
今年,河北省棉花产量和品质如何?棉农收成怎样?销售情况怎样?加工企业运转是否正常?带着这些问题,笔者近日进行了走访。
兴趣是孩子的第一任老师,兴趣在孩子的学习过程中极其重要,因此,在教学过程中,要加强对学生兴趣的培养,本文主要针对我国小学英语教学中的不足,对加强小学生兴趣培养的重要性
简要介绍了防冻液的种类、性能及使用注意事项。
随着IP网络技术的飞速发展,网络安全问题逐渐成为目前影响和制约IP网络应用发展的一个重要因素.为了解决网络安全问题,很多单位部署了防火墙、IDS等安全产品,但是这些安全产
本文对纯棉休闲服装的磨损(破)、轻薄类和疏松结构类服装的纰裂、羽绒服的保暖性及钻绒、涂层织物易开裂四类服装穿着过程中常见的问题进行分析,建议相应产品标准中应制定相关
全球最大独立公关公司之一——罗德公关顾问有限公司与亚洲地区奢侈品市场调研行业最主要公司之一——信天翁联业商务咨询有限公司于2009年曾联手推出《2009中国奢华品报告》