论文部分内容阅读
在线社交网络平台的发展在改变了网络上新闻信息的传播方式时,也带来了“信息爆炸”和信息“碎片化”的问题,用户需要从海量信息中迅速准确地获取有效信息变得越来越困难,而且离散的、碎片化的信息就像是一块块孤立的拼图,无法呈现事件和新闻的全貌。信息推荐技术的出现就是为了解决用户有效信息获取的问题。网络上传统的信息推荐方法大多都是基于频道或分类的订阅,用户通过订阅感兴趣的频道或分类,就能够收到该订阅下的内容。这种方式存在的不足有:1.用户选择的一个频道或分类下包含的内容依然很广,下面还可以划分出很多的子频道或子分类,而并不是其中所有的内容用户都感兴趣;2.推荐信息无法针对用户兴趣的变化进行动态更新;3.无法推荐用户感兴趣的潜在内容。基于话题的信息推荐更能满足用户的个性化需求。从在线社交网络上的用户行为数据(包括内容的发布、评论和转发等)挖掘出用户感兴趣的话题,再从网络媒体中寻找与话题相关的内容进行推荐,这样用户就能有效地从海量信息中获取自己感兴趣的内容,并且从一系列的推荐信息中,了解到相关话题的进展情况。通过分析发现,新闻报道中的话题是由一系列事件组成的。以事件为基本单位,事件间的关系作为话题中事件发展变化的描述方式,就可以用它们形成的网络结构对新闻文本中的话题进行表示。因此本文的研究是围绕着基于事件网络的文本语义化处理进行的:新闻文本用语义化的事件网络模型表示,将文本内容映射为包含有各种要素的事件和事件间的关系,然后用基于事件网络的层次化社区发现算法对事件网络进行聚类,得到相似事件的集合表示为话题;用话题所包含的语义信息建立语义兴趣建模,在此基础之上实现个性化的信息推荐。本文的主要贡献有:(1)通过对在线社交网络平台上的内容进行语义扩展,实现了语义化、主动式、动态化的信息推荐,为web2.0环境下的信息推荐研究提供了一条新的思路;(2)提出了基于语句分析的事件网络构建方法。由于目前没有成熟可用的事件本体,因此无法利用事件本体将文本有效地映射为事件网络。本文先对文本进行分词、词性标注后,通过语句分析找出文本中的事件触发词和事件要素,然后标注出事件触发词、事件要素和事件关系,用它们构建文本事件网络;(3)提出了一种基于事件网络的层次化社区发现算法,用于检测新闻文本中包含的话题。将新闻文本表示成事件网络后,进行文本的语义化处理,用层次化的网络社区发现算法对事件网络进行分层聚类。算法过程中每一层聚类得到的社区,也就是相似事件的集合可以表示成话题,算法产生的层次化的社区结构也正好可以与话题结构的层次性对应起来,最终的社区划分结果就可以看作是粒度最小的话题的集合;(4)提出了基于话题的语义化用户兴趣建模方法。用户的兴趣采用对文本进行语义分析和处理后得到的用户感兴趣的话题,话题是由相似事件组成的集合,事件包含各种事件元素,事件之间具有语义关系。用这些丰富的语义信息建立起的基于话题的用户兴趣模型,比内容分类和频道订阅等方法的粒度更细,更能准确的刻画用户的信息需求;与基于关键字的用户兴趣模型相比,事件与事件之间具有的语义关系使得文本和用户模型之间的匹配成为了语义层面的匹配,而不再是关键字的简单匹配,这样一来信息推荐的效果也有很大提高。