论文部分内容阅读
随着Web2.0的出现和以Twitter、Facebook为代表的社交媒体平台的开放,网络进入自媒体时代。自媒体时代让每个用户自由地通过推文、微博、BBS以及新闻回帖等形式对网络事件进行报道和评论,因而产生大量的短文本。这些短文本数据具有内容简短,表达自由,规模海量,增量快速等特点。此外,某些短文本在聚焦于某一主题知识进行讨论的同时,也可能与其它主题或领域知识产生关联,这些知识关联为网络热点事件的发现和分析研究提供良好的载体。然而,短文本数据的关联稀疏,噪音夹杂,冗余渗透,连贯缺失等特点给短文本信息处理提出了挑战。目前短文本信息处理的相关技术尚处于探索阶段,以下挑战性问题仍有待解决,包括:知识关联模式难于发现,核心语义难以提炼,知识流难以生成,语义连贯难以评价。为了解决上述挑战性问题,本文提出的面向Web短文本的知识关联模型及其语义连贯计算方法。本文将短文本关联知识模型作为语义计算的载体,把短文本连贯知识流的生成作为语义计算的目的,具体研究以下内容:(1)为了准确发现知识关联模式,本文提出了短文本知识关联模式发现模型。该模型将大规模Web事件短文本中蕴含的关联知识表达为有限的关键词层次关联语义链网络;通过并行化的分治方法高效地从Web短文本中发现不同的关键词知识关联模式;通过逐步求精方法对知识关联模式进行优化,不断丰富细节知识并减少噪音对知识关联模式的干扰。实验结果显示该模型可以发现主题突出、关联紧凑的关键词知识关联。(2)为了提炼简要的核心语义,本文提出了基于知识关联的核心短文本提取模型。该模型通过马尔科夫随机场来高效的提炼事件中蕴含的有限的关联知识及其分布以实现关联语义的表达和推理;通过最大化信息梯度法提取较少数量的短文本来最大化覆盖事件的关联知识,并以此作为短文本的核心语义。实验结果显示该模型的可以发现言简意赅的短文本关联知识。(3)为了生成连贯的知识流,本文提出了基于人类记忆过程的短文本知识的语义连贯模型。该模型自动构建三种典型的认知逻辑结构并从不同的认知逻辑结构中获得不同的关联知识分布,不同的关联知识分布对应不同的关联知识的激活扩散方向;连贯知识流的生成可以看作认知逻辑结构的转化以及关联知识的激活扩散,通过逻辑结构决策学习以及关联知识激活扩散来自动生成连贯知识流。实验结果显示该模型可以发现语义连贯的短文本知识流。(4)为了对连贯性进行准确评价,本文提出了基于关联语义链网络的语义连贯性度量模型。该模型通过构建关联语义链网络的拓扑结构来反映语义连贯性状态;通过连贯特征提取、连贯性计算、连贯模式发现来建立可准确和全面反映知识关联语义连贯性的定量评价指标体系。实验结果显示该模型可对知识关联模型及其连贯计算所获得的关联知识进行连贯性评价。本论文以短文本知识关联模型研究为突破,探索建立短文本知识关联的理论和方法体系,从理论上进一步发展和完善短文本信息处理、认知信息学等相关理论和方法,研究成果可应用于智能检索系统、知识决策系统、智能问答系统等。