论文部分内容阅读
基于自然语言的文本信息处理和推理相结合的课题在最近十多年来扮演着越来越重要的角色,其应用范围涉及多个方面,比如广泛使用的网络搜索引擎,生物信息中基于文献的数据采集等等。研究者们使用基于统计的监督和半监督机器学习方法,通过已经注释的训练数据,可以得到很多高效的文本信息处理模型。然而,随着文本数据的日益增多,人为注释的数据却相对来说非常有限,而要把所有各个领域的数据都注释一遍不仅耗费的人力巨大,在时间上也是几乎行不通的。人们往往还得通过自己的知识,通过推理进一步筛选出自己需要的资料和概括文章的大意。另一方面,类似专家系统等一类的推理引擎(Inference engine),能够把某一具体领域的数据按照相关性逻辑地聚集一起。而这些数据之中的一部分,在另一些领域中也是合理的。因此,有必要把文本信息处理和推理引擎结合在一起,把某一领域的已注释文本数据利用推理引擎,扩充到其他领域中,并从中推断出新的信息,使得计算能够“理解”自然语言,减轻人们处理信息的负担。本课题的研究主要通过自然语义处理和推理模型,模拟人脑对文本认知的过程,利用记忆再重构的理论,建立了一种能够对一些描述性的句子进行理解,分析,并作出反馈的智能推理系统。这些反馈是利用常识合理地推导出来的,在一定程度上减轻了人们筛选数据、提炼关键意思的负担。主要创新点包括:1、建立一种词义消歧(word sense disambiguation)机制。在文章中,常常会出现多义词。人们通过上下文,很容易得到这些多义词的确切意思,然而对于机器来说,在文章中消除多义词的歧义,是一个棘手的问题。本文建立了新的词义消歧机制,结合当前广泛使用的WordNet和VerbNet数据库,通过上下文的内容来确定一个词的确切意思。2、提出用于作为记忆模型的扩展型语义网络(extend semantic network,ESN)。传统的语义网络(Semantic Network)[1]仅仅能简单地表示概念实体以及相互之间的单一关系。本文提出的扩展型的语义网络,其顶点或边具有一系列属性,能够表达句子中复杂的意思。这种扩展型语义网络能很好的充当短期和长期记忆的模型,使得推理和记忆再重构顺利进行。3、常识库、自然语言到贝叶斯置信网的转换机制。传统的推理引擎的输入数据需要人工从自然语言转换而来,推理的框架也需要人为地从常识和规律中搭建出来。本文的记忆模型能把信息自动从句子转换成推理引擎的数据,也能自动从常识库或者自然语言中学习推理规则构建贝叶斯置信网。4、基于情景和主题的常识自适应选取和贝叶斯置信网实时动态组合机制。传统的推理引擎只能对某一固定领域的情形进行推理。本文的推理系统通过词汇disambiguation机制确定句子的情景和主题,自适应的选取常识来构建实时的贝叶斯执行网络,使得系统既能够恰当地推理相关信息,又能够降低贝叶斯网络的计算量,节约了时间。5、基于记忆再重构(memory reconsolidation)的贝叶斯置信网参数优化和信息更新。记忆再重构是近年来认在知科学和神经科学提出来的一种新的发现。在实验过程中,认知科学研究者发现人脑记住的信息并不是一成不变的,而是在每次回忆以后,这些旧的记忆会因为结合新的记忆而发生变化(比如从小时候的照片构思出一个人当前的外貌而作为记忆存储下来)。根据这一理论,本文提出的自适应贝叶斯置信网能够根据新的记忆来改变其参数,并重新更新旧的记忆,达到优化推理的目的。