论文部分内容阅读
目前,随着互联网的发展,大量的信息被呈现在我们面前。社交网络起源于网络交友,人们使用社交网络服务来组织、维护现有的社会关系,发现新的社会关系,从而在网络上呈现自己,并进行相关的社交活动。人与人之间的最简单的社会关系为好友关系。除了好友关系之外,人们还可以根据兴趣和个人属性被区分为不同的群组。比如根据兴趣,人们可以被分为爱好书籍的和爱好跳舞的群组等。另外,根据对于某一事物的专业程度,人们又可以被分为专业人士和普通大众。因此,识别人与人之间的两大类社会关系,即好友关系和群组关系,将是本文的研究的两个主要方面。传统的针对社交网络的研究通常会基于用户之间的联系进行分析,但是很多用户之间并没有足够多的联系用来帮助分析。而用户发表的文本信息在很多情况下能够有效的帮助分析社会关系,比如从文本中能找出有相近爱好或者相近写作风格的用户群组。因此,本文主要将研究基于文本信息的用户间好友和群组关系分析。除此之外,从文本中抽取的用户的个人属性信息能够很好的帮助识别社会关系,因此,本文的另一个研究重点就是从文本中有效的抽取有代表性的个人属性信息。本文主要利用文本信息进行用户社会关系分析,并开展了以下几方面的研究内容:1.我们从简历文本中抽取用户的两类重要的信息来反映用户的基本属性。一类是用户的技能的信息,但是,单纯通过技能信息来描述一个用户又会显得过于简单,因此我们从简历文本中抽取文本摘要信息作为另一类信息,从而更全面地体现用户信息。为了抽取用户的技能和简历信息,我们提出了一个联合预测因子图模型,用来将不同用户与技能通过多种关系联系起来。具体来说,我们提出的因子图模型通过属性函数利用多种文本信息,而基于因子函数将不同的用户联系起来。并利用置信传播算法学习与抽取用户的技能和摘要信息。2.在获取了用户的个人属性信息之后,我们从用户发表的文本中抽取的多种文本信息帮助好友关系预测任务。由于好友关系和兴趣是高度相关的,比如相互联系的好友倾向于有相近的兴趣,我们抽取了多种情感信息来联系有相近兴趣的用户。另外,好友之间的写作风格也会类似,因此,我们抽取了多种写作风格特征,比如,文本结构特征,词法特征,句法与篇章特征来帮助预测好友关系。我们最终基于概率图模型融合上述信息并进行用户好友关系的学习与预测。3.由于区分用户群组有很多种标准,我们分别按照兴趣与专业程度对用户的群组进行区分。值得注意的是,用户之间可能会有多个共同的兴趣群组,而一个用户只可能是专业的或者非专业的。对于基于兴趣的群组推荐,由于同一个用户可能存在多个兴趣群组,而不同群组之间也可能存在关联,因此我们提出了一种新的隐含因子图模型,用来有效的集成表层与潜在的文本与社交信息,从而将用户与群组有效的集成在一起。而对于区分专业和非专业人群,由于专业人士和非专业人士的关注点通常是不同的,而评论的专业程度通常和语言的表达有关。同时,对于同一事物的评论,不同类型的评论者也是有关联的。因此,我们提出一种基于协同矩阵分解的框架,用来预测用户发表评论的专业程度,并结合了多种文本特征与评论之间的联系。目前,用户社会关系分析研究尚处于起步阶段,本文研究亦属探索性工作,上述工作对用户社会关系分析在理论、资源、计算上均有不同程度的创新,对该领域的相关研究具有重要参考价值。