论文部分内容阅读
随着网络的迅速发展,网络中的文本信息呈现海量、快速、多样、稀疏的特征,从而使得网络用户经常出现迷航现象。在此情况下,我们需要一种面向机器的文本语义理解方法来辅助人们高效地组织、管理这些大规模网络文本信息,进而为人们提供优质的网络服务。但是,目前的机器文本语义理解方法存在以下问题,包括:(1)人类文本语义表达能力与机器文本语义理解能力之间存在较大鸿沟;(2)机器文本语义理解复杂性与网络文本数据海量性之间的矛盾;(3)机器的文本语义理解过程缺乏背景知识指导。针对上述三个问题,本文提出了基于人类认知过程的文本语义理解HTSC模型,本模型的基本思想为“认知框架+轻量级算法实现”,通过模拟人类的认知过程,以使机器文本语义理解结果更符合人类的认知结果,从而解决问题(1);通过轻量级的算法实现,以使本模型能够适应、处理大规模的网络文本环境,从而解决问题(2);在认知框架下,通过当前文本语义与背景知识间循环往复的动态理解过程,以从全局的角度来理解文本语义,从而解决问题(3)。本文具体研究以下内容:1.基于人类的记忆认知过程和文本信息加工过程理论,提出由感觉记忆、知觉关联记忆、工作记忆、短期情景记忆和长时记忆等几部分构成的文本语义理解HTSC模型,为面向机器的文本语义理解提供框架指导。2.在HTSC模型总体框架基础上,提出了HTSC模型中各个记忆系统下的文本语义表征方法,从而为机器的文本语义理解提供理论载体,包括:基于课文多水平表征理论,提出基于工作记忆的文本语义表征方法;基于关键词、篇章、话题三层文本语义网络,提出HTSC模型中基于短期情景记忆和长时记忆的文本语义表征方法;基于人类概念学习过程,提出文本语义幂级数表征方法。3.在语言学配价理论的基础上,提出了词之间语义关系的挖掘方法,避免了传统关联规则挖掘方法语义信息低下、挖掘效果参数依赖性高的缺陷,为机器文本语义理解中语义关系的发现提供了可能,包括:基于配价理论以及句子压膜理论,提出文本中动词依赖集挖掘方法;在动词依赖集基础上,结合关联规则挖掘方法,提出词之间原子语义关系挖掘方法;基于词之间原子语义关系,并结合文本中动词依赖集,提出词之间具体语义关系挖掘方法。4.在人类认知过程的基础上,提出了面向机器的文本语义动态理解过程,以使得机器的文本语义理解更符合人类的认知结果,包括:基于连通图理论,对文本语义连贯范式进行形式化定义;基于文本语义连贯范式,提出当前文本语义中激活线索的产生方法;基于语义链网络,提出背景知识激活方法以及融合方法。5.基于人类概念学习过程中的复杂度度量理论,提出了文本理解的复杂度度量方法,从而为不同层次用户提供个性化服务提供了可能,包括:基于概念代数复杂度度量,提出文本代数复杂度ACT;通过分析文本语义理解复杂度的影响因子,提出关键词及其之上关联关系的复杂度度量方法;基于关键词及其之上关联关系复杂度,提出文本代数复杂度改进方法,包括扩展型文本代数复杂度EACT和泛化型文本代数复杂度GEACT。6.基于HTSC模型及其之上的复杂度度量方法,研究与开发了两个应用演示系统:基于认知过程的智能交互系统和基于复杂度度量的搜索演示系统,从而为本文提出的HTSC模型提供了真实、合理的应用场景。本文以基于人类认知过的文本语义理解模型研究为突破,探索建立面向机器文本语义理解的理论与方法体系,进一步从理论上研究了文本语义的表征方法、词之间语义关系发现方法、当前文本语义与背景知识的动态交互方法,以及复杂度度量方法等。本研究成果能够直接应用于语义搜索、个性化推荐、用户关系发现、网络舆情监测等方面。